Scrapy爬蟲暫停和重啟
在當前項目下新建一個用於存儲中間過程變量的目錄
注意不同的spider不能共用一個目錄
同一個spider每次運行時也必須使用新的目錄
mkdir <spider_porject_path>/job_process
帶參數的命令啟動方式
1 scrapy crawl <spider_name> -s JOBDIR=job_process/001
為什么不能在pycharm中使用能
因為爬蟲暫停接收的是Ctrl+C信號,而pychar暫停時沒有使用Ctrl+C信號
一次Ctrl+C
暫停只能按一次,多次也會直接關閉,並且按下Ctrl+C后spider還是會繼續運行,它需要完處理未完成的任務等善后工作
重新啟動
scrapy crawl <spider_name> -s JOBDIR=job_process/001 # 可以觀察到兩次請求的第一個頁面都不一樣