本文轉載自查看原文 2015-08-16 09:46 3692 爬蟲/ AngularJS/ Jomony/ HttpHelper/ Abp

最近園子里網絡爬蟲很火爆，從 PHP 到 Python，從 windows服務到 winform 程序，各路大神各顯神通。小弟也獻下丑，從平庸流出發，簡述下 WebApi +AngularJS 方式實現網絡爬蟲。

一、技術框架

AngularJS，創建SPA（單頁面應用）。爬蟲需要長時間的等待服務器返回結果，必須使用ajax實現，使用JQuery一樣可以做到。

WebApi。AngularJS 配合 WebApi 使用十分融洽。

a. Abp，最近園子里很火的基礎框架，最大的優點是分模塊的實現，包括 AppService（WebApi）層的分模塊，使用后，代碼結構非常清晰。詳細內容可以見基於DDD的現代ASP.NET開發框架--ABP系列文章總目錄

b. 蘇飛論壇的C#HttpHelper萬能框架，用於Html頁面的采集，可以直接使用『HTTP代理』讀取，這點很重要！

需要注意的一點是，這個框架不是免費的，需要成為年費會員才可以下載。

c. Ivony的Jumony庫，項目介紹：“Jumony Core首先提供了一個近乎完美的HTML解析引擎，其解析結果無限逼近瀏覽器的解析結果。支持CSS3選擇器。”

二、技術實現

這個百度就行，可以搜索到一大堆的提供 Http 代理網址的網站，首先將這些免費的Http代理抓取大自己的代理庫，第二步和第三步需要用到這些代理。使用時，要記錄代理的可用情況，設定策略，失敗次數過多時，剔除掉。

當然，土豪直接購買收費的代理即可，穩定性高。

下面是我抓取的代理列表：

被禁的代理（我設定策略是失敗次數大於成功次數3次，即拋棄）：

有了足夠的Http代理列表后，就可以抓取網頁了。

后端實現功能：使用 HttpHelper 掛代理抓取網頁，然后使用 Jumony 分析頁面內容。同時要記錄每個 Http 代理的成功/失敗情況。

前端控制流程：根據 WebApi 返回的結果，判斷是否抓取成功。如果成功，繼續下一個頁面的抓取；如果失敗，換個代理繼續抓取當前頁。

由於文章列表不會太多，用單線程抓取足夠了。

上圖：

通過第二步抓取到了大量未讀取內容的文章后，這時候就需要抓取文章內容了。由於量比較大，通過多線程實現。

所謂的多線程，就是通過 Ajax 同時調用多個 WebApi 進程，通過監控返回結果。

上圖：

點擊『開始讀取』后

點擊『停止讀取』后：

沒有用到什么高深的知識，高深的部分都被 AngularJS、Abp、HttpHelper、Jomony實現，因此是平庸技術流的實現。

以上。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 網絡爬蟲技術網絡爬蟲技術總結網絡爬蟲技術淺析網絡爬蟲技術實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的。網絡爬蟲-案例實現 java實現網絡爬蟲一、python網絡爬蟲的實現網絡爬蟲實現 C# webApi 與 AngularJs 實現增刪改Demo 講解（一）