基於HttpClient4.0的網絡爬蟲基本框架（Java實現）

本文轉載自查看原文 2013-02-27 10:23 14833 Java

上個學期做了很久的新浪爬蟲，修修改改一直沒時間做個整理，趁着開學前，重新整理了下思路和代碼結構，做一個總結吧。

本來是雄心壯志的想實現一個Java版本的、比較通用的爬蟲框架的，但是整理后又發現此法真的是非常的簡單粗暴，跟scrapy等沒得比，其實沒得比都是正常的啦，我自己本來就水，而且沒有深入的去進行實現設計，所以，姑且總結一下當前的能力吧。

實現語言：Java

模擬HTTP請求：HttpClient 4.0

目標頁面結構分析、HTTP請求頭信息分析：Firefox + firebug / Chrome（F12 開發者模式）

HTML解析：Jsoup

基本思路

網絡爬蟲的基本思路是：爬蟲線程從待抓取URL隊列中拿取一個URL -> 模擬瀏覽器GET請求到目標URL -> 將網頁內容下載回來 -> 然后對頁面的內容進行解析、獲取目標數據保存到相應的存儲 -> 再以一定的規則從當前抓取的網頁中獲取接下來需要繼續爬取的URL。

當然以上思路是建立在爬取過程無需模擬登錄、被爬的網站比較善良不會做一些“反爬”的工作的基礎上，然而現實中，模擬登錄有時還是非常重要的（如新浪微博）；不會反爬的網站也少之又少，當頻訪問站點時，可能會被凍結賬號、封IP、返回“系統繁忙”“請慢點兒訪問”等信息。因此需要對爬蟲進行健壯性增強：增加對反爬信息的處理、動態切換賬號/IP、訪問時間delay等。

程序架構

由於模擬登錄模塊比較復雜，並且不同的網站實現的機制也不盡相同，因此這里只給出一個示意圖，下文主要針對不需要進行登錄的爬蟲進行分析。