scrapy的User-Agent中間件、代理IP中間件、cookies設置、多個爬蟲自定義settings設置

本文轉載自查看原文 2018-12-18 15:58 931 爬蟲/ python/ 代理設置/ 反爬/ 隨機User-Agent/ 數據抓取/ cookies

在scrapy的反爬中，常用的幾個配置，簡單總結了下：

User-Agent中間件：

from fake_useragent import UserAgent class RandomUserAgentMiddleware(object): def __init__(self, crawler): self.ua = UserAgent() def process_request(self, request, spider): request.headers.setdefault('User-Agent', self.ua.random)

代理IP中間件：

class RandomProxyMiddleware(object):
 '''
 這只是一個簡單的演示
 ''' def process_request(self, request, spider): ip = ''  # 要用到的代理IP
        port = ''  # 要使用的代理port
        request.meta['proxy'] = 'http://{}:{}'.format(ip, port)

cookies設置、多個爬蟲共用一個settings時，各自spider中的設置：

class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.com'] start_urls = ['https://www.baidu.com'] # custom_settings可以設置調整settings中的配置參數，以此來適配自己的spider。
    custom_settings = { 'COOKIES_ENABLED':True, # 在配置文件settings中可以設置成False, 在這個spider中這樣設置就可以開啟cookies了，其他的配置一樣適用 } def parse(self, response): pass

都是很簡單實用的配置

驗證碼：打碼平台比較簡單、省事、效率

注：每天進步一點點，或記錄或不記錄，都是自己的。記錄是怕遺忘，也是為了更好的想起！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 二十七 Python分布式爬蟲打造搜索引擎Scrapy精講—通過自定義中間件全局隨機更換代理IP FastAPI 中間件(一) 自定義中間件 Scrapy 設置隨機 User-Agent 寫一個scrapy中間件--ip代理池 scrapy 爬蟲中間件-offsite和refer中間件爬蟲（十四）：scrapy下載中間件 koa2怎么自定義一個中間件 laravel使用自定義中間件在Ocelot中使用自定義的中間件（一） asp.net core 系列之中間件進階篇-編寫自定義中間件(middleware)