本篇故事的起因是攜程旅游網的一位技術經理,豪言壯舉的揚言要通過他的超高智商,完美碾壓爬蟲開發人員,作為一個業余的爬蟲開發愛好者,這樣的言論我當然不能置之不理。因此就誕生了以及這一篇高級爬蟲的開發教程。
有人評論我上一篇的簡單爬蟲:代碼太過簡單以至於弱爆了,真是被這群有文化的孩子給雷到了!不得不猜測你是不是攜程網的托兒,我還沒寫完你咋就知道弱爆了?看來不下點猛料你是得不到滿足啊!
今天我們就來學習高級爬蟲的開發,同時我們還要利用之前的簡單爬蟲程序,來實現分布式爬蟲的Links Master部分,以提高分布式抓取的效率。
下邊的我們要講的內容,涉及了眾多開源軟件。先別太緊張,越是高級的東西通常都封裝的越好,只要放開心態綜合運用就行了,我先假設你對下邊這些工具都有過了解:
-
RabbitMQ:用於分布式消息傳遞。
-
Shadowsocks:用於代理加密。
-
PhantomJS:用於Web頁面渲染。
-
Selenium:用於Web自動化控制。
一、什么是高級爬蟲?
我們長談到的高級爬蟲,通常是說它具有瀏覽器的運行特征,需要第三方的類庫或工具的支持,比如說以下這些常見的東東:
-
Webkit
-
WebBrowser
-
PhantomJS + Selenium
很多人都覺得,分布式爬蟲才能算是高級的爬蟲。這絕對是一種錯誤的理解,分布式只是我們實現爬蟲架構的一種手段,而並非是用來定義它高級的因素。
我們之所以稱它們為高級爬蟲組件,主要是因為他們不但可以直接抓取網頁源代碼,同時還能能渲染網站頁面的HTML、CSS、Javascript等內容。
這樣的功能,對於開發爬蟲到底有什么好處呢?說起這好處那是有點謙虛了,絲毫不誇張的說:這玩意簡直可以稱為“爬無敵”!!!
我猜你還是這個表情,因為它的強大機制,讓我們可以直接在網站頁面:執行Javascript代碼、觸發各類鼠標鍵盤事件、操縱頁面Dom結構、利用XPath語法抓取數據,幾乎可以做一切在瀏覽器上能做的事情。
很多網站都用Ajax動態加載、翻頁,比如攜程網的評論數據。如果是用之前那個簡單的爬蟲,是很難直接抓取到所有評論數據的,我們需要去分析那漫天的Javascript代碼尋找API數據接口,還要時刻提防對方增加數據陷阱或修改API接口地。
如果通過高級爬蟲,就可以完全無視這些問題,無論他們如何加密Javascript代碼來隱藏API接口,最終的數據都必要呈現在網站頁面上的Dom結構中,不然普通用戶也就沒法看到了。所以我們可以完全不分析API數據接口,直接從Dom中提取數據,甚至都不需要寫那復雜的正則表達式。
二、如何開發一款高級爬蟲?
現在我們就來一步一步實現這個高級爬蟲,接下來就用目前潮到爆的兩個組件,來完成一個有基本功能的高級爬蟲,首先我們去下載開源組件:
PhantomJS:算是一個沒有UI界面的瀏覽器,主要用來實現頁面自動化測試,我們則利用它的頁面解析功能,執行網站內容的抓取。下載解壓后將Bin文件夾中的phantomjs.exe文件復制到你爬蟲項目下的任意文件夾,我們只需要這個。
下載地址:http://phantomjs.org/download.html
Selenium:是一個自動化測試工具,封裝了很多WebDriver用於跟瀏覽器內核通訊,我用開發語言來調用它實現PhantomJS的自動化操作。它的下載頁面里有很多東西,我們只需要Selenium Client,它支持了很多語言(C#、JAVA、Ruby、Python、NodeJS),按自己所學語言下載即可。
下載地址:http://docs.seleniumhq.org/download/
這里我我下載C#語言客戶端,將這4個DLL文件都添加到項目引用中,其他語言開發者請自行尋找方法,然后開始我們的編碼之旅。
老規矩,打開Visual Studio 2015 新建一個控制台應用程序,增加一個簡單的StrongCrawler類,由於這兩個爬蟲類具有公共部分,本着DRY的原則,需要對部分代碼重構,我們先提取一個ICrawler接口:
然后我們用StrongCrawler類來實現這個接口:
接着我們來編寫它的異步爬蟲方法:
好了,這個高級爬蟲的基本功能就定義完成了,還是用攜程的酒店數據作為抓取的例子,我們測試一下抓取(酒店名稱、地址、評分、價格、評論數量、評論當前頁碼、評論下一頁碼、評論總頁數、每頁評論數量)等詳細數據試試。我們現在用控制台程序來調用一下:
由上圖可知,等待酒店頁面加載完成后,我們通過XPath語法查找頁面元素,首先點擊了頁面上的“酒店評論”按鈕,再等待頁面的Dom結構發生變化,也就是說等待Ajax加載成功,然后對需要的數據進行抓取。看看代碼的執行結果:
我們很輕松的抓取到了酒店的信息,以及酒店的第一頁全部評論數據。因為攜程網的評論數據是通過Ajax翻頁的,因此要想抓取所有評論,還抓取了評論的頁碼等數據。再看看執行性能:
還算不錯,484毫秒,可以說在所有高級爬蟲組件中,PhantomJS的效率應該是最高的了,幾乎沒有其他組件可以直接與之抗衡。有了頁碼數據,我們就可以對評論進行執行翻頁抓取操作,以這個速度,抓取幾百頁的評論數據根本不需要搞分布式。
三、如何實現分布式?
分布式爬蟲通常使用消息隊列來實現,目前互聯網上的開源消息隊列非常多,今天我們就來介紹一款非常拉風的分布式消息隊列開源組件:
RabbitMQ是一個開源的AMQP實現,服務器端用Erlang語言編寫,支持多種客戶端,如:.NET、Python、Ruby、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等,支持AJAX。用於在分布式系統中存儲轉發消息,在易用性、擴展性、高可用性等方面表現都非常好。
下載地址:http://www.rabbitmq.com/download.html
分布式爬蟲通常需要兩個端:
-
控制端
-
爬蟲端
控制端主要負責控制爬蟲運行、監控爬蟲狀態、配置爬蟲抓取方式等。爬蟲端主的功能就是抓取數據並將數據提交給數據清洗服務。
爬蟲端還需要分出Master爬蟲及Worker爬蟲,Master爬蟲主要利用簡單爬蟲的運行方式實現高性能的超連接(Links)的抓取。Worker爬蟲則利用高級爬蟲特性來采集精細化的數據,例如Ajax加載的內容。把最擅長的事情交給最合適的爬蟲來做。
聰明的你應該想到了,他們之間的溝通方式就是消息隊列。Master爬蟲只需要將抓取的Links扔進數據抓取隊列。Worker爬蟲通過定時拉去隊列中的Links來實現數據抓取,抓取完成后將數據再提交至數據清洗隊列。
原理應該都講清楚了吧?那就自己實現代碼吧,RabbitMQ官網上都有示例代碼,我就不再這里啰嗦了。
四、如何實現穩定的加密代理?
在這個互聯網時代,免費的東西基本上快消失殆盡了,就算有也肯定很垃圾。所以今天我要講的Shadowsocks,也是一個需要付少量費用的東西,這個東西的強大之處,就在於其流量特征不明顯,可以非常穩定的提供上網代理。
下載地址:https://github.com/shadowsocks
Shadowsocks客戶端會在本地開啟一個socks5代理,通過此代理的網絡訪問請求由客戶端發送至服務端,服務端發出請求,收到響應數據后再發回客戶端。中間通過了AES-256來加密傳輸數據,因此要必普通的代理服務器安全得多,我們來看看它的運行方式:
由圖得知,它需要先在本地運行客戶端程序,連接遠程代理服務器的服務端程序實現加密通訊。再在本地模擬代理端口,讓本機流量先經過本地客戶端加密,然后再傳輸至遠程服務端,完成代理的轉發服務。
因此我們只需要買一台基於Linux的VPS服務器,成本大約在15元人民幣每月,安裝好服務端后,就可以實現一個非常穩定的加密代理服務。相關教材網上一大堆,我也就不再這里啰嗦。
五、結束語
迫於一些壓力,我就不在這里公布詳細的爬蟲源代碼了,看上面的例子肯定能自己完成一個更強大的高級爬蟲。