scrapy处理需要跟进的url

本文转载自查看原文 2018-03-14 10:34 1053 python/ scrapy

在做scrapy爬虫的时候经常会遇到需要跟进url的情况，网站a有许多url，但是我们需要跟进这些url，进一步获取这些url中的详细内容。

简单的说就是要先解析出所有需要的url，然后跟进这些url

那么现在来说说怎么做

scrapy中有个Request专门处理跟进的url

from scrapy.http import Request

在处理函数parse中进行跟进

    def parse(self, response):
        hxs = Selector(response)
        urls = hxs.xpath('//div[@class="li-info"]//h3//a/@href').extract()
        for url in urls:
            yield Request(url, callback=self.get_community)

callback中的函数才是重点，对跟进的url再次发送请求，

    def get_community(self, response):
        hxs = Selector(response)
        item = CommunityItem()
        yield item

这个函数用来进行对跟进的url进行解析，以便得到我们想要的数据

这里只是跟进了一次url，如果需要跟进多次url，可以多次使用Request，多个回调函数处理。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 传的参数是url地址时需要特殊处理 scrapy不过滤重复url scrapy多url爬取 scrapy::Max retries exceeded with url 一个try可以跟进多个catch语句，用于处理不同情况，当一个try只能匹配一个catch scrapy 429 处理 scrapy 日志处理需要解决的问题：scrapy框架yield和return scrapy之多url页面数据的抓取 scrapy 修改URL爬取起始位置