如何提高scrapy的爬取效率

本文轉載自查看原文 2019-03-25 10:11 984 爬蟲

提高scrapy的爬取效率

增加並發：
    默認scrapy開啟的並發線程為32個，可以適當進行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值為100,並發設置成了為100。

降低日志級別：
    在運行scrapy時，會有大量日志信息的輸出，為了減少CPU的使用率。可以設置log輸出信息為INFO或者ERROR即可。在配置文件中編寫：LOG_LEVEL = ‘INFO’

禁止cookie：
    如果不是真的需要cookie，則在scrapy爬取數據時可以進制cookie從而減少CPU的使用率，提升爬取效率。在配置文件中編寫：COOKIES_ENABLED = False

禁止重試：
    對失敗的HTTP進行重新請求（重試）會減慢爬取速度，因此可以禁止重試。在配置文件中編寫：RETRY_ENABLED = False

減少下載超時：
    如果對一個非常慢的鏈接進行爬取，減少下載超時可以能讓卡住的鏈接快速被放棄，從而提升效率。在配置文件中進行編寫：DOWNLOAD_TIMEOUT = 10 超時時間為10s

配置文件：

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
CONCURRENT_REQUESTS = 100
COOKIES_ENABLED = False
LOG_LEVEL = 'ERROR'
RETRY_ENABLED = False
DOWNLOAD_TIMEOUT = 3
# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16
DOWNLOAD_DELAY = 3

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 scrapy增量爬取 Scrapy爬蟲提高效率 Scrapy 爬取動態頁面 scrapy爬取網址，進而爬取詳情頁問題提升requests模塊的爬取效率 scrapy爬蟲系列之四--爬取列表和詳情『Scrapy』爬取斗魚主播頭像利用scrapy爬取騰訊的招聘信息 scrapy使用PhantomJS爬取數據 scrapy爬蟲之爬取汽車信息