第一種:根據headers設置反爬蟲
從用戶請求的headers反爬蟲是最常見的反爬蟲策略,很多網站都會對headers的user-agent進行檢測,還有一部分網站會對referer進行檢測(一些資源網站的防盜鏈就是檢測referer),如果遇到了這類的反爬蟲機制的話,可以直接在爬蟲中添加headers,將瀏覽器的user-agent復制到爬蟲的headers中,或者將referer值修改為目標網站域名,對於檢測headers的反爬蟲,在爬蟲中添加headers就能很好地繞過去。
第二種:根據用戶行為設置反爬蟲
還有一部分網站是通過用戶的行為,例如同一個ip短時間內多次訪問同一個頁面,或者是同一個賬戶短時間內進行相同的操作。
大多數網站都是前一種情況,對於這種情況,使用ip代理就可以解決,可以專門寫一個爬蟲,爬取網上公開的代理ip,檢測后全部保存起來,這樣的代理ip爬蟲進行會用到,最好自己准備一個,有了大量的代理ip之后可以每請求就更換一個ip,這在requests或者urllib2中很容易做到,這樣的話就可以很容易繞過第一種爬蟲。
對於第二種情況,可以在每次請求后隨機間隔幾秒之后在進行下一次的請求,有些有邏輯漏洞的網站,可以通過請求幾次,退出登錄,重新登錄,繼續請求來繞過同一個賬戶短時間內不能多次進行相同請求的限制。
第三種:根據動態頁面設置反爬蟲
上述的幾種情況大多都是出現在靜態頁面,還有一部分網站,我們需要爬取的數據是通過ajax請求得到,或者通過JavaScript生成的。首先用Firebug或者HttpFox對網絡請求進行分析。如果能夠找到ajax請求,也能分析出具體的參數和響應的具體含義,我們就能采用上面的方法,直接利用requests或者urllib2模擬ajax請求,對響應的json進行分析得到需要的數據。
能夠直接模擬ajax請求獲取數據固然是極好的,但是有些網站把ajax請求的所有參數全部加密了,我們根本沒辦法構造自己所需要的數據的請求。
用這套框架幾乎能繞過大多數的反爬蟲,因為它不是在偽裝成瀏覽器來獲取數據(上述的通過添加Headers一定程度上就是為了偽裝成瀏覽器),它本身就是瀏覽器,phantomJS就是一個沒有界面的瀏覽器,只是操控這個瀏覽器的不是人。利用selenium+phantomJS能干很多事情,例如識別點觸式(12306)或者滑動式的驗證碼,對頁面表單進行暴力破解等等。