scrapy爬蟲之斷點續爬和多個spider同時爬取

本文轉載自查看原文 2018-03-20 10:04 2511 爬蟲

from scrapy.commands import ScrapyCommand
from scrapy.utils.project import get_project_settings

#斷點續爬scrapy crawl spider_name -s JOBDIR=crawls/spider_name
#運行命令scrapy crawlall
class Command(ScrapyCommand):
    requires_project = True

    def syntax(self):
        return '[options]'

    def short_desc(self):
        return 'Runs all of the spiders'

    def run(self, args, opts):
        spider_list = self.crawler_process.spiders.list()
        for name in spider_list:
            self.crawler_process.crawl(name, **opts.__dict__)
        self.crawler_process.start()

多個spider同時運行

新建命令文件夾commands,目錄下新建crawlall.py
scrapy crawlall 需在settings里配置 COMMANDS_MODULE = 'project.commands'
執行命令scrapy crawlall
原理:通過加載用戶初始化的 crawler_process.spiders 獲取列表下的所有spider的name,然后遍歷list 分別crawl

斷點續爬

#斷點續爬 scrapy crawl spider_name -s JOBDIR=crawls/spider_name
↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑↑
terminnal 執行此命令
可在crawls目錄下記錄斷點，下次繼續重復執行命令可從斷點續爬。
詳細見開發者文檔
https://doc.scrapy.org/en/latest/topics/jobs.html?highlight=jobdir

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Spider-scrapy斷點續爬 FOFA鏈接爬蟲爬取fofa spider 爬蟲---scrapy全站爬取第十六節：Scrapy爬蟲框架之項目創建spider文件數據爬取 python網絡爬蟲之使用scrapy自動爬取多個網頁爬蟲爬取多個網頁 Scrapy爬蟲案例01——翻頁爬取 scrapy爬蟲系列之四--爬取列表和詳情 scrapy爬蟲之爬取汽車信息 scrapy使用爬取多個頁面