菜雞小南橙的成長之路----爬取國家稅務總局納稅信用A級納稅人信息(股份有限公司)


網站爬蟲不做過多介紹可參考博文:

https://blog.csdn.net/weixin_43636302/article/details/103830507

今天主要講一下反反爬的思路。

博文的做法是通過post接口訪問,但沒有做反反爬處理

這個接口的時延很低但是會封ip,反爬措施做的很到位,別說是爬蟲人手點快一點都會被封ip。

嘗試過使用休息和代理ip池請求,效果不佳,由於客戶需要數據只能采用“暴力模擬法”:

通過selenium+chrome+chromedriver模擬人點擊過程,且強制休息等待時間。

經過測試還是能爬到可觀的數據量的,但是長時間還是會"封頁面"(和封ip不同,封ip會導致你在其他頁面和瀏覽器都無法請求到數據)

目前已經獲得2014--2018年納稅信用A級納稅人信息(股份有限公司)的所有信息 沒有爬完 客戶只需要這么多,后期考慮補充完整數據庫。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM