基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

本文轉載自查看原文 2017-04-13 10:46 11940 爬蟲

本篇故事的起因是攜程旅游網的一位技術經理，豪言壯舉的揚言要通過他的超高智商，完美碾壓爬蟲開發人員，作為一個業余的爬蟲開發愛好者，這樣的言論我當然不能置之不理。因此就誕生了以及這一篇高級爬蟲的開發教程。

有人評論我上一篇的簡單爬蟲：代碼太過簡單以至於弱爆了，真是被這群有文化的孩子給雷到了！不得不猜測你是不是攜程網的托兒，我還沒寫完你咋就知道弱爆了？看來不下點猛料你是得不到滿足啊！

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

今天我們就來學習高級爬蟲的開發，同時我們還要利用之前的簡單爬蟲程序，來實現分布式爬蟲的Links Master部分，以提高分布式抓取的效率。

下邊的我們要講的內容，涉及了眾多開源軟件。先別太緊張，越是高級的東西通常都封裝的越好，只要放開心態綜合運用就行了，我先假設你對下邊這些工具都有過了解：

RabbitMQ：用於分布式消息傳遞。
Shadowsocks：用於代理加密。
PhantomJS：用於Web頁面渲染。
Selenium：用於Web自動化控制。

一、什么是高級爬蟲？

我們長談到的高級爬蟲，通常是說它具有瀏覽器的運行特征，需要第三方的類庫或工具的支持，比如說以下這些常見的東東：

Webkit
WebBrowser
PhantomJS + Selenium

很多人都覺得，分布式爬蟲才能算是高級的爬蟲。這絕對是一種錯誤的理解，分布式只是我們實現爬蟲架構的一種手段，而並非是用來定義它高級的因素。

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

我們之所以稱它們為高級爬蟲組件，主要是因為他們不但可以直接抓取網頁源代碼，同時還能能渲染網站頁面的HTML、CSS、Javascript等內容。

這樣的功能，對於開發爬蟲到底有什么好處呢？說起這好處那是有點謙虛了，絲毫不誇張的說：這玩意簡直可以稱為“爬無敵”！！！

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

我猜你還是這個表情，因為它的強大機制，讓我們可以直接在網站頁面：執行Javascript代碼、觸發各類鼠標鍵盤事件、操縱頁面Dom結構、利用XPath語法抓取數據，幾乎可以做一切在瀏覽器上能做的事情。

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

很多網站都用Ajax動態加載、翻頁，比如攜程網的評論數據。如果是用之前那個簡單的爬蟲，是很難直接抓取到所有評論數據的，我們需要去分析那漫天的Javascript代碼尋找API數據接口，還要時刻提防對方增加數據陷阱或修改API接口地。

如果通過高級爬蟲，就可以完全無視這些問題，無論他們如何加密Javascript代碼來隱藏API接口，最終的數據都必要呈現在網站頁面上的Dom結構中，不然普通用戶也就沒法看到了。所以我們可以完全不分析API數據接口，直接從Dom中提取數據，甚至都不需要寫那復雜的正則表達式。

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

二、如何開發一款高級爬蟲？

現在我們就來一步一步實現這個高級爬蟲，接下來就用目前潮到爆的兩個組件，來完成一個有基本功能的高級爬蟲，首先我們去下載開源組件：

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

PhantomJS：算是一個沒有UI界面的瀏覽器，主要用來實現頁面自動化測試，我們則利用它的頁面解析功能，執行網站內容的抓取。下載解壓后將Bin文件夾中的phantomjs.exe文件復制到你爬蟲項目下的任意文件夾，我們只需要這個。

下載地址：http://phantomjs.org/download.html

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

Selenium：是一個自動化測試工具，封裝了很多WebDriver用於跟瀏覽器內核通訊，我用開發語言來調用它實現PhantomJS的自動化操作。它的下載頁面里有很多東西，我們只需要Selenium Client，它支持了很多語言（C#、JAVA、Ruby、Python、NodeJS），按自己所學語言下載即可。

下載地址：http://docs.seleniumhq.org/download/

這里我我下載C#語言客戶端，將這4個DLL文件都添加到項目引用中，其他語言開發者請自行尋找方法，然后開始我們的編碼之旅。

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

老規矩，打開Visual Studio 2015 新建一個控制台應用程序，增加一個簡單的StrongCrawler類，由於這兩個爬蟲類具有公共部分，本着DRY的原則，需要對部分代碼重構，我們先提取一個ICrawler接口：

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

然后我們用StrongCrawler類來實現這個接口：

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

接着我們來編寫它的異步爬蟲方法：

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

好了，這個高級爬蟲的基本功能就定義完成了，還是用攜程的酒店數據作為抓取的例子，我們測試一下抓取（酒店名稱、地址、評分、價格、評論數量、評論當前頁碼、評論下一頁碼、評論總頁數、每頁評論數量）等詳細數據試試。我們現在用控制台程序來調用一下：

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

由上圖可知，等待酒店頁面加載完成后，我們通過XPath語法查找頁面元素，首先點擊了頁面上的“酒店評論”按鈕，再等待頁面的Dom結構發生變化，也就是說等待Ajax加載成功，然后對需要的數據進行抓取。看看代碼的執行結果：

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

我們很輕松的抓取到了酒店的信息，以及酒店的第一頁全部評論數據。因為攜程網的評論數據是通過Ajax翻頁的，因此要想抓取所有評論，還抓取了評論的頁碼等數據。再看看執行性能：

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

還算不錯，484毫秒，可以說在所有高級爬蟲組件中，PhantomJS的效率應該是最高的了，幾乎沒有其他組件可以直接與之抗衡。有了頁碼數據，我們就可以對評論進行執行翻頁抓取操作，以這個速度，抓取幾百頁的評論數據根本不需要搞分布式。

三、如何實現分布式？

分布式爬蟲通常使用消息隊列來實現，目前互聯網上的開源消息隊列非常多，今天我們就來介紹一款非常拉風的分布式消息隊列開源組件：

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

RabbitMQ是一個開源的AMQP實現，服務器端用Erlang語言編寫，支持多種客戶端，如：.NET、Python、Ruby、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等，支持AJAX。用於在分布式系統中存儲轉發消息，在易用性、擴展性、高可用性等方面表現都非常好。

下載地址：http://www.rabbitmq.com/download.html

分布式爬蟲通常需要兩個端：

控制端
爬蟲端

控制端主要負責控制爬蟲運行、監控爬蟲狀態、配置爬蟲抓取方式等。爬蟲端主的功能就是抓取數據並將數據提交給數據清洗服務。

爬蟲端還需要分出Master爬蟲及Worker爬蟲，Master爬蟲主要利用簡單爬蟲的運行方式實現高性能的超連接（Links）的抓取。Worker爬蟲則利用高級爬蟲特性來采集精細化的數據，例如Ajax加載的內容。把最擅長的事情交給最合適的爬蟲來做。

聰明的你應該想到了，他們之間的溝通方式就是消息隊列。Master爬蟲只需要將抓取的Links扔進數據抓取隊列。Worker爬蟲通過定時拉去隊列中的Links來實現數據抓取，抓取完成后將數據再提交至數據清洗隊列。

原理應該都講清楚了吧？那就自己實現代碼吧，RabbitMQ官網上都有示例代碼，我就不再這里啰嗦了。

四、如何實現穩定的加密代理？

在這個互聯網時代，免費的東西基本上快消失殆盡了，就算有也肯定很垃圾。所以今天我要講的Shadowsocks，也是一個需要付少量費用的東西，這個東西的強大之處，就在於其流量特征不明顯，可以非常穩定的提供上網代理。

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

下載地址：https://github.com/shadowsocks

Shadowsocks客戶端會在本地開啟一個socks5代理，通過此代理的網絡訪問請求由客戶端發送至服務端，服務端發出請求，收到響應數據后再發回客戶端。中間通過了AES-256來加密傳輸數據，因此要必普通的代理服務器安全得多，我們來看看它的運行方式：

基於C#.NET的高端智能化網絡爬蟲（二）（攻破攜程網）

由圖得知，它需要先在本地運行客戶端程序，連接遠程代理服務器的服務端程序實現加密通訊。再在本地模擬代理端口，讓本機流量先經過本地客戶端加密，然后再傳輸至遠程服務端，完成代理的轉發服務。

因此我們只需要買一台基於Linux的VPS服務器，成本大約在15元人民幣每月，安裝好服務端后，就可以實現一個非常穩定的加密代理服務。相關教材網上一大堆，我也就不再這里啰嗦。

五、結束語

迫於一些壓力，我就不在這里公布詳細的爬蟲源代碼了，看上面的例子肯定能自己完成一個更強大的高級爬蟲。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於C#.NET的高端智能化網絡爬蟲（一）（反爬蟲哥必看）從企業數字化到管理決策智能化基於 HTML5 WebGL 的樓宇智能化集成系統（一）智能化腳本autoit v3的簡單了解阿里智能化接口測試平台--暴雪基於 HTML5 WebGL 的樓宇智能化集成系統（一）從前端智能化看“低代碼/無代碼” C#.NET 大型通用信息化系統集成快速開發平台 4.1 版本 - 密碼強化、網絡安全強化 C#.NET 強大的LINQ c#.NET中各種遞歸