網站爬蟲不做過多介紹可參考博文:
https://blog.csdn.net/weixin_43636302/article/details/103830507
今天主要講一下反反爬的思路。
博文的做法是通過post接口訪問,但沒有做反反爬處理
這個接口的時延很低但是會封ip,反爬措施做的很到位,別說是爬蟲人手點快一點都會被封ip。
嘗試過使用休息和代理ip池請求,效果不佳,由於客戶需要數據只能采用“暴力模擬法”:
通過selenium+chrome+chromedriver模擬人點擊過程,且強制休息等待時間。
經過測試還是能爬到可觀的數據量的,但是長時間還是會"封頁面"(和封ip不同,封ip會導致你在其他頁面和瀏覽器都無法請求到數據)
目前已經獲得2014--2018年納稅信用A級納稅人信息(股份有限公司)的所有信息 沒有爬完 客戶只需要這么多,后期考慮補充完整數據庫。
