Heritrix 3.1.0 源碼解析(一)


Heritrix是一個比較經典的開源爬蟲,本人打算用它來做一些數據采集應用

網上關於heritrix系列的博文 大多是老版本的(1.14.4版本),Heritrix 3.1.0版本的文章則極其稀少

由於新的版本相對老版本改動比較大,所以本人不能循老版本的套路了

(Heritrix 3.1.0 版本引入spring容器管理,相對增強了對spring熟悉的開發人員的親和性)

 首先介紹新的Heritrix 3.1.0 版本怎么在eclipse下搭建環境,以便於自己調試與開發

網上介紹在Eclipse中搭建Heritrix 3.1.0的文章總是講的很復雜,無疑增加了開發人員對它的敬畏感,不利於Heritrix 3.1.0的普及

其實經過本人實踐,哪有那么復雜呢

本人是通過maven來管理項目的,首先在eclipse下建立maven項目,然后在項目的pom.xml文件里面添加heritrix3.1.0的依賴文件

       <dependency>
            <groupId>org.archive.heritrix</groupId>
            <artifactId>heritrix-commons</artifactId>
            <version>3.1.0</version>
            <scope>compile</scope>
        </dependency>    
        <dependency>
            <groupId>org.archive.heritrix</groupId>
            <artifactId>heritrix-modules</artifactId>
            <version>3.1.0</version>
            <scope>compile</scope>
        </dependency>
        <dependency>
            <groupId>org.archive.heritrix</groupId>
            <artifactId>heritrix-engine</artifactId>
            <version>3.1.0</version>
            <scope>compile</scope>
        </dependency>

其他相關的依賴會自動導入,不用我們來一個一個的手工添加了(其實前兩個依賴都不用手動添加,heritrix-engine會自動關聯)

至此,heritrix3.1.0在eclipse中搭建環境 完畢

那么,我們怎么啟動這個應用呢,新建啟動類,在main函數里面加入如下代碼:

public static void main(String[] args) throws Exception {
        //String[] args={"-a","admin:admin"};
        new Heritrix().instanceMain(args);         
    }

在應用的Arguments參數里面配置"-a admin:admin"

然后在eclipse上點擊運行 java Application,運行成功控制台會輸出如下信息(我已經配置了一個任務,所以會出現“信息: added crawl job: myjob”)



然后在瀏覽器輸入:https://localhost:8443,輸入用戶名及密碼(
用戶名及密碼均為admin),就可以看到Heritrix3.1.0的UI界面了


上面視圖是我已經添加了一個采集任務的界面

配置好Heritrix 3.1.0的eclipse環境后,就比較方便的調試它了,而且很方面的查看Heritrix 3.1.0源碼

---------------------------------------------------------------------------

本系列Heritrix 3.1.0 源碼解析系本人原創

轉載請注明出處 博客園 刺蝟的溫馴

本文鏈接 http://www.cnblogs.com/chenying99/archive/2013/04/10/3011604.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM