scrapy 爬蟲的暫停與重啟

本文轉載自查看原文 2019-04-03 22:59 1344

暫停爬蟲項目

　　首先在項目目錄下創建一個文件夾用來存放暫停爬蟲時的待處理請求url以及其他的信息.(文件夾名稱:job_info)

在啟動爬蟲項目時候用pycharm自帶的終端啟動輸入下面的命令:

scrapy crawl (爬蟲名) -s JOBDIR=job_info/(再讓其自動的創建一個文件夾用於存放不同的爬蟲重啟與暫停時的信息[不同的爬蟲在暫停時不能共用同一個目錄來存放暫停信息,重啟同理.],名稱隨便起[例如:001].)

該命令運行后按下一次ctrl+c后scrapy接收到一次暫停的信號注意這里只能按一次ctrl+c如果按了兩次就表示強制退出了.下圖中展示了暫停時收集的信息並將生成的信息存放到預先指定的目錄中去.其實目錄下的文件保存的就是暫停后沒有處理掉的請求url.,

存放暫停信息的目錄中下的文件如圖所示:

重啟爬蟲項目

　　重啟爬蟲項目的命令和暫停時的是一樣的只是首次請求的url地址不一樣了,如果想重新啟動爬蟲程序,在JOBDIR后面重新指定文件夾即可例如:

scrapy crawl (爬蟲名) -s JOBDIR=job_info/002

下圖中展示了未請求完的信息文件.

scrapy 項目的暫停與重啟用法介紹完成.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Scrapy爬蟲的暫停和啟動三十二 Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy的暫停與重啟 Scrapy學習-17-暫停和重啟 scrapy暫停和重啟，及url去重原理,telenet簡單使用 Flink任務暫停重啟 scrapy爬蟲 Vsftpd服務重啟、暫停命令 Vsftpd服務重啟、暫停命令 Scrapy爬蟲(九)：scrapy的調試技巧 [爬蟲框架scrapy]scrapy的安裝