菜鸡小南橙的成长之路----爬取国家税务总局纳税信用A级纳税人信息(股份有限公司)

本文转载自查看原文 2020-04-26 01:48 580 爬虫/ 学习/ python/ 菜鸟/ 反反爬

网站爬虫不做过多介绍可参考博文：

今天主要讲一下反反爬的思路。

博文的做法是通过post接口访问，但没有做反反爬处理

这个接口的时延很低但是会封ip,反爬措施做的很到位，别说是爬虫人手点快一点都会被封ip。

尝试过使用休息和代理ip池请求，效果不佳，由于客户需要数据只能采用“暴力模拟法”：

通过selenium+chrome+chromedriver模拟人点击过程，且强制休息等待时间。

经过测试还是能爬到可观的数据量的，但是长时间还是会"封页面"（和封ip不同，封ip会导致你在其他页面和浏览器都无法请求到数据）

目前已经获得2014--2018年纳税信用A级纳税人信息(股份有限公司)的所有信息没有爬完客户只需要这么多，后期考虑补充完整数据库。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 解密中国证券金融股份有限公司中国电信股份有限公司实习感悟 [转]国家税务总局：个税专项附加扣除APP正式启用！（附操作指南）第一段实习结束——上海汉得信息技术股份有限公司（2013年7月25日至2014年1月17日）国家税务总局全国增值税发票查验平台 | 免验证码 | 批量查验关于增值税发票综合服务平台等事项的公告国家税务总局公告2020年第1号个体户、独资公司、有限公司、股份公司、控股公司、集团公司武汉欧凯德信息科技有限公司乘风破浪的哥哥们，联合菜品有限公司成团时刻一文读懂个体户、独资企业、合伙企业、有限公司与股份公司的区别