scrapy如果抓取太頻繁了,就被被封IP,目前有以下主要策略保證不會被封:
- 策略1:設置download_delay下載延遲,數字設置為5秒,越大越安全
- 策略2:禁止Cookie,某些網站會通過Cookie識別用戶身份,禁用后使得服務器無法識別爬蟲軌跡
- 策略3:使用user agent池。也就是每次發送的時候隨機從池中選擇不一樣的瀏覽器頭信息,防止暴露爬蟲身份
- 策略4:使用IP池,這個需要大量的IP資源,貌似還達不到這個要求
- 策略5:分布式爬取,這個是針對大型爬蟲系統的,對目前而言我們還用不到。
- 策略6:偽造x-forward-for,偽裝自身為代理,讓服務器不認為你是爬蟲
