1、增加並發線程開啟數量
settings配置文件中,修改CONCURRENT_REQUESTS = 100,默認為32,可適當增加;
2、降低日志級別
運行scrapy時會產生大量日志占用CPU,為減少CPU使用率,可修改log輸出級別
settings配置文件中LOG_LEVEL='ERROR' 或 LOG_LEVEL = 'INFO' ;
3、禁止cookie
scrapy默認自動保存cookie,占用CPU,如果不是真的需要cookie,可設置為不保存cookie,以減少CPU使用率,
settings配置文件中:COOKIES_ENABLED = False 解開注釋
4、禁止請求重試:
對於失敗的請求會重新發送,則會減慢爬取速度,因此可以在對丟失少量數據也不影響時,禁止重試,
settings配置文件中加:RETRY_ENABLED = False ;
5、減少下載超時:
如果對一個非常慢的鏈接進行爬取,減少下載超時可以讓卡住的鏈接快速被放棄,從而提升效率,
在settings配置文件中進行編寫:DOWNLOAD_TIMEOUT = 10 設置超時時間;