暫停爬蟲項目
首先在項目目錄下創建一個文件夾用來存放暫停爬蟲時的待處理請求url以及其他的信息.(文件夾名稱:job_info)
在啟動爬蟲項目時候用pycharm自帶的終端啟動輸入下面的命令:
scrapy crawl (爬蟲名) -s JOBDIR=job_info/(再讓其自動的創建一個文件夾用於存放不同的爬蟲重啟與暫停時的信息[不同的爬蟲在暫停時不能共用同一個目錄來存放暫停信息,重啟同理.],名稱隨便起[例如:001].)
該命令運行后按下一次ctrl+c后scrapy接收到一次暫停的信號注意這里只能按一次ctrl+c如果按了兩次就表示強制退出了.下圖中展示了暫停時收集的信息並將生成的信息存放到預先指定的目錄中去.其實目錄下的文件保存的就是暫停后沒有處理掉的請求url.,
存放暫停信息的目錄中下的文件如圖所示:
重啟爬蟲項目
重啟爬蟲項目的命令和暫停時的是一樣的只是首次請求的url地址不一樣了,如果想重新啟動爬蟲程序,在JOBDIR后面重新指定文件夾即可例如:
scrapy crawl (爬蟲名) -s JOBDIR=job_info/002
下圖中展示了未請求完的信息文件.
scrapy 項目的暫停與重啟用法介紹完成.