【零基礎】快速入門爬蟲框架HtmlUnit


迅速的HtmlUnit

  htmlunit是一款開源的web頁面分析工具,理論上來說htmlunit應用於網頁的自動化測試,但是相對來說更多人使用它來進行小型爬蟲的快速開發。使用htmlunit進行爬蟲開發不僅是其運行速度快,更重要的是此框架上手更為容易(相對於POST、selenium)。

基本環境

  1、java,首先你得安裝好javaSDK(版本隨意)、編譯器(eclipse)

  2、HtmlUnit,項目以jar文件的形式發布,可以上官網下載最新版本(htmlunit-2.35.0-bin.zip)並解壓,所有jar文件都在lib目錄中。文末附下載鏈接

創建項目、引入jar包

  1、打開eclipse,新建一個java項目

  2、右鍵項目選擇屬性(Properties)

  3、選擇“java Build Path”->“Libraries”->“Add External JARs”

  4、找到前面下載的jar文件(htmlunit-2.35.0->lib目錄),將所有jar文件選中,點擊“打開”按鈕,而后點擊“OK”按鈕,則htmlunit所有jar文件就引入了我們新建的項目,在此項目中也就可以直接使用htmlunit提供的各種功能來實現網頁分析。

簡單實例

  1、新建一個class文件

  2、輸入下述代碼

  運行一下看看是否得到了頁面的xml代碼以及百度網站首頁的文本內容

 更多學習資料

  只是簡單的運行起來當然不夠,所以我們准備了更多的學習資料,關注公眾號“零基礎愛學習”回復“HU”獲取《HtmlUnit官方簡易教程中譯版》,內容包括:

  1、使用不同版本的瀏覽器打開網頁

  2、找到頁面中特定的元素

  3、元素檢索

  4、點擊頁面中的按鈕


  以及前面說到的htmlunitjar包最新版本(htmlunit-2.35.0-bin)

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM