DOWNLOAD_DELAY = 5 # The download delay setting will honor only one of: # 指定使用scrapy-redis的調度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 指定使用scrapy-redis的去重 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' # 指定排序爬取地址時使用的隊列, # 默認的 按優先級排序(Scrapy默認),由sorted set實現的一種非FIFO、LIFO方式。 SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue' # 可選的 按先進先出排序(FIFO) # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderQueue' # 可選的 按后進先出排序(LIFO) # SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderStack' # 在redis中保持scrapy-redis用到的各個隊列,從而允許暫停和暫停后恢復,也就是不清理redis queues SCHEDULER_PERSIST = True # 只在使用SpiderQueue或者SpiderStack是有效的參數,指定爬蟲關閉的最大間隔時間 # SCHEDULER_IDLE_BEFORE_CLOSE = 10 # 通過配置RedisPipeline將item寫入key為 spider.name : items 的redis的list中,供后面的分布式處理item # 這個已經由 scrapy-redis 實現,不需要我們寫代碼 ITEM_PIPELINES = { #'distribute_country_tecah.pipelines.DistributeCountryPipeline':300, 'scrapy_redis.pipelines.RedisPipeline': 400 } # 指定redis數據庫的連接參數 # REDIS_PASS是我自己加上的redis連接密碼(默認不做) REDIS_HOST = '127.0.0.1' REDIS_PORT = 6379 #REDIS_PASS = 'redisP@ssw0rd' # LOG等級 LOG_LEVEL = 'DEBUG' #默認情況下,RFPDupeFilter只記錄第一個重復請求。將DUPEFILTER_DEBUG設置為True會記錄所有重復的請求。 DUPEFILTER_DEBUG =True