爬蟲反爬機制及反爬策略

本文轉載自查看原文 2019-05-21 21:32 1151 python爬蟲

爬蟲是一種模擬瀏覽器對網站發起請求，獲取數據的方法。簡單的爬蟲在抓取網站數據的時候，因為對網站訪問過於頻繁，給服務器造成過大的壓力，容易使網站崩潰，因此網站維護者會通過一些手段避免爬蟲的訪問，以下是幾種常見的反爬蟲和反反爬蟲策略：

　
關於網站動態加載的方法，還能一種反反爬蟲的方法：找到其api的接口，這里有一個爬取B站視頻信息的實例就是使用的這種方法，地址：https://github.com/iszoop/BilibiliSpider

爬蟲進階：反爬策略的應對機制

爬蟲與反爬蟲，這相愛相殺的一對，簡直可以寫出一部壯觀的斗爭史。而在大數據時代，數據就是金錢，很多企業都為自己的網站運用了反爬蟲機制，防止網頁上的數據被爬蟲爬走。然而，如果反爬機制過於嚴格，可能會誤傷到真正的用戶請求；如果既要和爬蟲死磕，又要保證很低的誤傷率，那么又會加大研發的成本。

簡單低級的爬蟲速度快，偽裝度低，如果沒有反爬機制，它們可以很快的抓取大量數據，甚至因為請求過多，造成服務器不能正常工作。而偽裝度高的爬蟲爬取速度慢，對服務器造成的負擔也相對較小。所以，網站反爬的重點也是那種簡單粗暴的爬蟲，反爬機制也會允許偽裝度高的爬蟲，獲得數據。畢竟偽裝度很高的爬蟲與真實用戶也就沒有太大差別了。

這篇文章主要討論使用 Scrapy 框架時，如何應對普通的反爬機制。

header 檢驗

最簡單的反爬機制，就是檢查 HTTP 請求的 Headers 信息，包括 User-Agent, Referer、Cookies 等。

User-Agent

User-Agent 是檢查用戶所用客戶端的種類和版本，在 Scrapy 中，通常是在下載器中間件中進行處理。比如在 setting.py 中建立一個包含很多瀏覽器 User-Agent 的列表，然后新建一個 random_user_agent 文件：

classRandomUserAgentMiddleware(object):
@classmethod
defprocess_request(cls, request, spider):
ua = random.choice(spider.settings['USER_AGENT_LIST'])
ifua:
request.headers.setdefault('User-Agent', ua)

這樣就可以在每次請求中，隨機選取一個真實瀏覽器的 User-Agent。

Referer

Referer 是檢查此請求由哪里來，通常可以做圖片的盜鏈判斷。在 Scrapy 中，如果某個頁面 url 是通過之前爬取的頁面提取到，Scrapy 會自動把之前爬取的頁面 url 作為 Referfer。也可以通過上面的方式自己定義 Referfer 字段。

Cookies

網站可能會檢測 Cookie 中 session_id 的使用次數，如果超過限制，就觸發反爬策略。所以可以在 Scrapy 中設置 COOKIES_ENABLED = False讓請求不帶 Cookies。

也有網站強制開啟 Cookis，這時就要麻煩一點了。可以另寫一個簡單的爬蟲，定時向目標網站發送不帶 Cookies 的請求，提取響應中 Set-cookie 字段信息並保存。爬取網頁時，把存儲起來的 Cookies 帶入 Headers 中。

X-Forwarded-For

在請求頭中添加 X-Forwarded-For 字段，將自己申明為一個透明的代理服務器，一些網站對代理服務器會手軟一些。

X-Forwarded-For 頭一般格式如下

X-Forwarded-For: client1, proxy1, proxy2

這里將 client1，proxy1 設置為隨機 IP 地址，把自己的請求偽裝成代理的隨機 IP 產生的請求。然而由於 X-Forwarded-For 可以隨意篡改，很多網站並不會信任這個值。

限制 IP 的請求數量

如果某一 IP 的請求速度過快，就觸發反爬機制。當然可以通過放慢爬取速度繞過，這要以爬取時間大大增長為代價。另一種方法就是添加代理。

request.meta['proxy'] = 'http://'+ 'proxy_host'+ ':'+ proxy_port

然后再每次請求時使用不同的代理 IP。然而問題是如何獲取大量的代理 IP？

可以自己寫一個 IP 代理獲取和維護系統，定時從各種披露免費代理 IP 的網站爬取免費 IP 代理，然后定時掃描這些 IP 和端口是否可用，將不可用的代理 IP 及時清理。這樣就有一個動態的代理庫，每次請求再從庫中隨機選擇一個代理。然而這個方案的缺點也很明顯，開發代理獲取和維護系統本身就很費時費力，並且這種免費代理的數量並不多，而且穩定性都比較差。如果必須要用到代理，也可以去買一些穩定的代理服務。這些服務大多會用到帶認證的代理。

在 requests 庫中添加帶認證的代理很簡單，

proxies = {
"http": "http://user:pass@10.10.1.10:3128/",
}

然而 Scrapy 不支持這種認證方式，需要將認證信息編碼后，加入 Headers 的 Proxy-Authorization 字段：

import
# Set the location of the proxy
proxy_string = choice(self._get_proxies_from_file('proxies.txt')) # user:pass@ip:port
proxy_items = proxy_string.split('@')
request.meta['proxy'] = "http://%s"% proxy_items[1]
# setup basic authentication for the proxy
user_pass=.encodestring(proxy_items[0])
request.headers['Proxy-Authorization'] = 'Basic '+ user_pass

動態加載

現在越來越多的網站使用 ajax 動態加載內容，這時候可以先截取 ajax 請求分析一下，有可能根據 ajax 請求構造出相應的 API 請求的 URL 就可以直接獲取想要的內容，通常是 json 格式，反而還不用去解析 HTML。

然而，很多時候 ajax 請求都會經過后端鑒權，不能直接構造 URL 獲取。這時就可以通過 PhantomJS+Selenium 模擬瀏覽器行為，抓取經過 js 渲染后的頁面。具體可以參考：

需要注意的是，使用 Selenium 后，請求不再由 Scrapy 的 Downloader 執行，所以之前添加的請求頭等信息都會失效，需要在 Selenium 中重新添加

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 反爬機制及反反爬策略 Python爬蟲實戰——反爬機制的解決策略【阿里】常見的反爬機制及應對策略常見的反爬機制及應對策略 Python爬蟲——反爬 selenium反爬機制 python爬蟲--爬蟲與反爬如何應對網站反爬蟲策略？如何高效地爬大量數據? Python爬蟲實戰——反爬策略之代理IP【無憂代理】爬蟲--反爬--css反爬---大眾點評爬蟲