反爬的幾種手段總結

本文轉載自查看原文 2019-05-18 14:12 2089 Python歸納

第一種：根據headers設置反爬蟲

從用戶請求的headers反爬蟲是最常見的反爬蟲策略，很多網站都會對headers的user-agent進行檢測，還有一部分網站會對referer進行檢測(一些資源網站的防盜鏈就是檢測referer),如果遇到了這類的反爬蟲機制的話，可以直接在爬蟲中添加headers，將瀏覽器的user-agent復制到爬蟲的headers中，或者將referer值修改為目標網站域名，對於檢測headers的反爬蟲，在爬蟲中添加headers就能很好地繞過去。

第二種：根據用戶行為設置反爬蟲

還有一部分網站是通過用戶的行為，例如同一個ip短時間內多次訪問同一個頁面，或者是同一個賬戶短時間內進行相同的操作。

大多數網站都是前一種情況，對於這種情況，使用ip代理就可以解決，可以專門寫一個爬蟲，爬取網上公開的代理ip，檢測后全部保存起來，這樣的代理ip爬蟲進行會用到，最好自己准備一個，有了大量的代理ip之后可以每請求就更換一個ip，這在requests或者urllib2中很容易做到，這樣的話就可以很容易繞過第一種爬蟲。

對於第二種情況，可以在每次請求后隨機間隔幾秒之后在進行下一次的請求，有些有邏輯漏洞的網站，可以通過請求幾次，退出登錄，重新登錄，繼續請求來繞過同一個賬戶短時間內不能多次進行相同請求的限制。

第三種：根據動態頁面設置反爬蟲

上述的幾種情況大多都是出現在靜態頁面，還有一部分網站，我們需要爬取的數據是通過ajax請求得到，或者通過JavaScript生成的。首先用Firebug或者HttpFox對網絡請求進行分析。如果能夠找到ajax請求，也能分析出具體的參數和響應的具體含義，我們就能采用上面的方法，直接利用requests或者urllib2模擬ajax請求，對響應的json進行分析得到需要的數據。

能夠直接模擬ajax請求獲取數據固然是極好的，但是有些網站把ajax請求的所有參數全部加密了，我們根本沒辦法構造自己所需要的數據的請求。

用這套框架幾乎能繞過大多數的反爬蟲，因為它不是在偽裝成瀏覽器來獲取數據（上述的通過添加Headers一定程度上就是為了偽裝成瀏覽器），它本身就是瀏覽器，phantomJS就是一個沒有界面的瀏覽器，只是操控這個瀏覽器的不是人。利用selenium+phantomJS能干很多事情，例如識別點觸式（12306）或者滑動式的驗證碼，對頁面表單進行暴力破解等等。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 常見的反爬手段和解決思路詳細解析反爬手段以及處理方案一些常見的反爬手段及解決思路網站反爬蟲的原因和反反爬的手段總結幾種常見web攻擊手段及其防御方式總結幾種常見web攻擊手段極其防御方式【Python3爬蟲】突破反爬之應對前端反調試手段集群環境下，Session管理的幾種手段幾種常用加密手段的加密與解密這種python反爬蟲手段有點意思，看我怎么破解