scrapy主要防止封IP策略


scrapy如果抓取太频繁了,就被被封IP,目前有以下主要策略保证不会被封:

  • 策略1:设置download_delay下载延迟,数字设置为5秒,越大越安全
  • 策略2:禁止Cookie,某些网站会通过Cookie识别用户身份,禁用后使得服务器无法识别爬虫轨迹
  • 策略3:使用user agent池。也就是每次发送的时候随机从池中选择不一样的浏览器头信息,防止暴露爬虫身份
  • 策略4:使用IP池,这个需要大量的IP资源,貌似还达不到这个要求
  • 策略5:分布式爬取,这个是针对大型爬虫系统的,对目前而言我们还用不到。
  • 策略6:伪造x-forward-for,伪装自身为代理,让服务器不认为你是爬虫


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM