提升Scrapy框架爬取數據效率的五種方式


1、增加並發線程開啟數量

  settings配置文件中,修改CONCURRENT_REQUESTS = 100,默認為32,可適當增加;

2、降低日志級別

  運行scrapy時會產生大量日志占用CPU,為減少CPU使用率,可修改log輸出級別

  settings配置文件中LOG_LEVEL='ERROR' 或 LOG_LEVEL = 'INFO' ;

3、禁止cookie

  scrapy默認自動保存cookie,占用CPU,如果不是真的需要cookie,可設置為不保存cookie,以減少CPU使用率,

  settings配置文件中:COOKIES_ENABLED = False 解開注釋

4、禁止請求重試:

  對於失敗的請求會重新發送,則會減慢爬取速度,因此可以在對丟失少量數據也不影響時,禁止重試,

  settings配置文件中加:RETRY_ENABLED = False ;

5、減少下載超時:

  如果對一個非常慢的鏈接進行爬取,減少下載超時可以讓卡住的鏈接快速被放棄,從而提升效率,

  在settings配置文件中進行編寫:DOWNLOAD_TIMEOUT = 10 設置超時時間;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM