scrapy主要防止封IP策略


scrapy如果抓取太頻繁了,就被被封IP,目前有以下主要策略保證不會被封:

  • 策略1:設置download_delay下載延遲,數字設置為5秒,越大越安全
  • 策略2:禁止Cookie,某些網站會通過Cookie識別用戶身份,禁用后使得服務器無法識別爬蟲軌跡
  • 策略3:使用user agent池。也就是每次發送的時候隨機從池中選擇不一樣的瀏覽器頭信息,防止暴露爬蟲身份
  • 策略4:使用IP池,這個需要大量的IP資源,貌似還達不到這個要求
  • 策略5:分布式爬取,這個是針對大型爬蟲系統的,對目前而言我們還用不到。
  • 策略6:偽造x-forward-for,偽裝自身為代理,讓服務器不認為你是爬蟲


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM