菜鸡小南橙的成长之路----爬取国家税务总局纳税信用A级纳税人信息(股份有限公司)


网站爬虫不做过多介绍可参考博文:

https://blog.csdn.net/weixin_43636302/article/details/103830507

今天主要讲一下反反爬的思路。

博文的做法是通过post接口访问,但没有做反反爬处理

这个接口的时延很低但是会封ip,反爬措施做的很到位,别说是爬虫人手点快一点都会被封ip。

尝试过使用休息和代理ip池请求,效果不佳,由于客户需要数据只能采用“暴力模拟法”:

通过selenium+chrome+chromedriver模拟人点击过程,且强制休息等待时间。

经过测试还是能爬到可观的数据量的,但是长时间还是会"封页面"(和封ip不同,封ip会导致你在其他页面和浏览器都无法请求到数据)

目前已经获得2014--2018年纳税信用A级纳税人信息(股份有限公司)的所有信息 没有爬完 客户只需要这么多,后期考虑补充完整数据库。

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM