提升Scrapy框架爬取數據效率的五種方式

本文轉載自查看原文 2019-05-09 17:58 791 網絡爬蟲/ Python

1、增加並發線程開啟數量

　　settings配置文件中，修改CONCURRENT_REQUESTS = 100,默認為32，可適當增加；

2、降低日志級別

　　運行scrapy時會產生大量日志占用CPU，為減少CPU使用率，可修改log輸出級別

　　settings配置文件中LOG_LEVEL='ERROR' 或 LOG_LEVEL = 'INFO' ；

3、禁止cookie

　　scrapy默認自動保存cookie，占用CPU，如果不是真的需要cookie，可設置為不保存cookie，以減少CPU使用率，

　　settings配置文件中：COOKIES_ENABLED = False 解開注釋

4、禁止請求重試：

　　對於失敗的請求會重新發送，則會減慢爬取速度，因此可以在對丟失少量數據也不影響時，禁止重試，

　　settings配置文件中加：RETRY_ENABLED = False ；

5、減少下載超時:

　　如果對一個非常慢的鏈接進行爬取，減少下載超時可以讓卡住的鏈接快速被放棄，從而提升效率，

　　在settings配置文件中進行編寫：DOWNLOAD_TIMEOUT = 10 設置超時時間；

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 如何提升scrapy爬取數據的效率 scrapy基礎之數據爬取 scrapy圖片數據爬取 scrapy框架爬取妹子圖片 Scrapy爬取多層網頁結構數據 scrapy爬取的數據異步存儲至MySQL scrapy多url爬取 Scrapy 框架-爬取JS生成的動態頁面爬蟲Scrapy框架-2爬取網站視頻詳情利用Scrapy框架爬取落網上的音樂文件