scrapy中使用 IP 代理

本文轉載自查看原文 2019-07-03 11:21 1328

在 scrapy 中使用 ip 代理需要借助中間件的功能

首先在settings 中設置好中間件，中間件優先級數字越小越先被執行

'DOWNLOADER_MIDDLEWARES':{      
         'spider.spider.middlewares.ProxyMiddleWare':542,   
         'spider.spider.middlewares.SelenuimDownloaderMiddleware':543     
   }

然后編寫中間件，攔截請求設置代理

class ProxyMiddleWare(object):
    
    def process_request(self, request, spider):
        
        """ 對 request 加上proxy"""
        proxy = RedisClient().pop_proxy().decode('utf-8')
        print('---------this is request ip ----------:'+ proxy)
        request.meta['proxy'] = proxy


    def process_response(self, request, response, spider):
        
        """ 對返回的 response 處理"""

        # 如果返回的 response 狀態不是 200， 重新生成當前的 request對象
        if response.status != 200:
            proxy = RedisClient().pop_proxy().decode('utf-8')
            print('this is response ip:'+ proxy)
            # 對當前 request 加上代理
            return request

        return response

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scrapy中使用代理在Scrapy中使用IP池或用戶代理（python3） scrapy中使用代理IP爬取數據時遇到IP失效時自動切換的方法 Scrapy ip代理池 python scrapy ip代理的設置 scrapy框架之代理的使用關於在scrapy中使用xpath 關於scrapy 使用代理相關問題 HttpClient使用代理IP requests使用代理ip