Python爬蟲：scrapy爬蟲設置隨機訪問時間間隔

本文轉載自查看原文 2019-11-13 16:30 884

本文鏈接： https://blog.csdn.net/mouday/article/details/81512748

scrapy中有一個參數：DOWNLOAD_DELAY 或者 download_delay 可以設置下載延時，不過Spider類被初始化的時候就固定了，爬蟲運行過程中沒發改變。

隨機延時，可以降低被封ip的風險

代碼示例

random_delay_middleware.py

# -*- coding:utf-8 -*-

import logging
import random
import time


class RandomDelayMiddleware(object):
    def __init__(self, delay):
        self.delay = delay

    @classmethod
    def from_crawler(cls, crawler):
        delay = crawler.spider.settings.get("RANDOM_DELAY", 10)
        if not isinstance(delay, int):
            raise ValueError("RANDOM_DELAY need a int")
        return cls(delay)

    def process_request(self, request, spider):
        delay = random.randint(0, self.delay)
        logging.debug("### random delay: %s s ###" % delay)
        time.sleep(delay)

使用方式：

custom_settings = {
        "RANDOM_DELAY": 3,
        "DOWNLOADER_MIDDLEWARES": {
            "middlewares.random_delay_middleware.RandomDelayMiddleware": 999,
        }
    }

說明：
RANDOM_DELAY: 下載隨機延時范圍，[0, RANDOM_DELAY]
比如上面我設置了3秒，那么隨機延時范圍將是[0, 3]
如果設置了DOWNLOAD_DELAY 那么，總的延時應該是兩者之和：

total_delay = DOWNLOAD_DELAY + RANDOM_DELAY

更精確的說，應該是：

DOWNLOAD_DELAY + 0 < total_delay < DOWNLOAD_DELAY + RANDOM_DELAY

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 在scrapy的spiders文件中設置請求時間間隔 Python 時間加減和時間間隔 python爬蟲之scrapy安裝（一） python爬蟲框架——scrapy python爬蟲scrapy的LinkExtractor JMeter 設置間隔時間（十） oracle設置awr采集間隔和保留時間 python爬蟲之scrapy的pipeline的使用 Scrapy 設置隨機 User-Agent 基於python的隨機時間