迅速的HtmlUnit
htmlunit是一款開源的web頁面分析工具,理論上來說htmlunit應用於網頁的自動化測試,但是相對來說更多人使用它來進行小型爬蟲的快速開發。使用htmlunit進行爬蟲開發不僅是其運行速度快,更重要的是此框架上手更為容易(相對於POST、selenium)。
基本環境
1、java,首先你得安裝好javaSDK(版本隨意)、編譯器(eclipse)
2、HtmlUnit,項目以jar文件的形式發布,可以上官網下載最新版本(htmlunit-2.35.0-bin.zip)並解壓,所有jar文件都在lib目錄中。文末附下載鏈接
創建項目、引入jar包
1、打開eclipse,新建一個java項目
2、右鍵項目選擇屬性(Properties)
3、選擇“java Build Path”->“Libraries”->“Add External JARs”
4、找到前面下載的jar文件(htmlunit-2.35.0->lib目錄),將所有jar文件選中,點擊“打開”按鈕,而后點擊“OK”按鈕,則htmlunit所有jar文件就引入了我們新建的項目,在此項目中也就可以直接使用htmlunit提供的各種功能來實現網頁分析。
簡單實例
1、新建一個class文件
2、輸入下述代碼
運行一下看看是否得到了頁面的xml代碼以及百度網站首頁的文本內容
更多學習資料
只是簡單的運行起來當然不夠,所以我們准備了更多的學習資料,關注公眾號“零基礎愛學習”回復“HU”獲取《HtmlUnit官方簡易教程中譯版》,內容包括:
1、使用不同版本的瀏覽器打開網頁
2、找到頁面中特定的元素
3、元素檢索
4、點擊頁面中的按鈕
以及前面說到的htmlunitjar包最新版本(htmlunit-2.35.0-bin)