Heritrix是一個比較經典的開源爬蟲,本人打算用它來做一些數據采集應用
網上關於heritrix系列的博文 大多是老版本的(1.14.4版本),Heritrix 3.1.0版本的文章則極其稀少
由於新的版本相對老版本改動比較大,所以本人不能循老版本的套路了
(Heritrix 3.1.0 版本引入spring容器管理,相對增強了對spring熟悉的開發人員的親和性)
首先介紹新的Heritrix 3.1.0 版本怎么在eclipse下搭建環境,以便於自己調試與開發
網上介紹在Eclipse中搭建Heritrix 3.1.0的文章總是講的很復雜,無疑增加了開發人員對它的敬畏感,不利於Heritrix 3.1.0的普及
其實經過本人實踐,哪有那么復雜呢
本人是通過maven來管理項目的,首先在eclipse下建立maven項目,然后在項目的pom.xml文件里面添加heritrix3.1.0的依賴文件
<dependency> <groupId>org.archive.heritrix</groupId> <artifactId>heritrix-commons</artifactId> <version>3.1.0</version> <scope>compile</scope> </dependency> <dependency> <groupId>org.archive.heritrix</groupId> <artifactId>heritrix-modules</artifactId> <version>3.1.0</version> <scope>compile</scope> </dependency> <dependency> <groupId>org.archive.heritrix</groupId> <artifactId>heritrix-engine</artifactId> <version>3.1.0</version> <scope>compile</scope> </dependency>
其他相關的依賴會自動導入,不用我們來一個一個的手工添加了(其實前兩個依賴都不用手動添加,heritrix-engine會自動關聯)
至此,heritrix3.1.0在eclipse中搭建環境 完畢
那么,我們怎么啟動這個應用呢,新建啟動類,在main函數里面加入如下代碼:
public static void main(String[] args) throws Exception { //String[] args={"-a","admin:admin"}; new Heritrix().instanceMain(args); }
在應用的Arguments參數里面配置"-a admin:admin"
然后在eclipse上點擊運行 java Application,運行成功控制台會輸出如下信息(我已經配置了一個任務,所以會出現“信息: added crawl job: myjob”)

然后在瀏覽器輸入:https://localhost:8443,輸入用戶名及密碼(用戶名及密碼均為admin),就可以看到Heritrix3.1.0的UI界面了

上面視圖是我已經添加了一個采集任務的界面
配置好Heritrix 3.1.0的eclipse環境后,就比較方便的調試它了,而且很方面的查看Heritrix 3.1.0源碼
---------------------------------------------------------------------------
本系列Heritrix 3.1.0 源碼解析系本人原創
轉載請注明出處 博客園 刺蝟的溫馴
本文鏈接 http://www.cnblogs.com/chenying99/archive/2013/04/10/3011604.html