scrapy中使用 IP 代理

本文转载自查看原文 2019-07-03 11:21 1328

在 scrapy 中使用 ip 代理需要借助中间件的功能

首先在settings 中设置好中间件，中间件优先级数字越小越先被执行

'DOWNLOADER_MIDDLEWARES':{      
         'spider.spider.middlewares.ProxyMiddleWare':542,   
         'spider.spider.middlewares.SelenuimDownloaderMiddleware':543     
   }

然后编写中间件，拦截请求设置代理

class ProxyMiddleWare(object):
    
    def process_request(self, request, spider):
        
        """ 对 request 加上proxy"""
        proxy = RedisClient().pop_proxy().decode('utf-8')
        print('---------this is request ip ----------:'+ proxy)
        request.meta['proxy'] = proxy


    def process_response(self, request, response, spider):
        
        """ 对返回的 response 处理"""

        # 如果返回的 response 状态不是 200， 重新生成当前的 request对象
        if response.status != 200:
            proxy = RedisClient().pop_proxy().decode('utf-8')
            print('this is response ip:'+ proxy)
            # 对当前 request 加上代理
            return request

        return response

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 scrapy中使用代理在Scrapy中使用IP池或用户代理更新版（python3）在Scrapy中使用IP池或用户代理（python3） scrapy中使用代理IP爬取数据时遇到IP失效时自动切换的方法 Scrapy ip代理池 Scrapy中间件user-agent和ip代理使用 scrapy学习笔记：项目中使用代理ip scrapy实现ip代理池 python scrapy ip代理的设置 scrapy中间件中使用selenium切换ip