接口測試腳本之Jsoup解析HTML


第一次接觸jsoup還是在處理收貨地址的時候,當時在寫一個下單流程,需要省市區id以及詳細門牌號等等,因此同事介紹了jsoup,閑來無事,在此閑扯一番!

1.我們來看下,什么是jsoup,先來看看官方文檔是怎么說的:

jsoup: Java HTML Parser,jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.

簡單來說就是從HTML頁面獲取數據。

2.jsoup能處理什么呢?

(1)沒有關閉的標簽 (比如: <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
(2)隱式標簽 (比如. 它可以自動將 <td>Table data</td>包裝成<table><tr><td>?)
(3)創建可靠的文檔結構(html標簽包含head 和 body,在head只出現恰當的元素)

3.先來看看實際操作吧

(1)從一個URL加載一個Document

首先我們新建一個java project,用jsoup獲取百度title,結構如下圖所示,下載jsoup包,如:jsoup-1.10.2.jar,將包引入jsoupdemo工程中

(2)從文件中加載HTML,並用jsoup解析

在該工程下新建一個package,名為resources,將百度首頁源碼保存為一個HTML文件,我們讀取該HTML文件,並獲取輸入框的屬性為id的值kw.

 

 (3)使用DOM方法來遍歷一個文檔,獲取name屬性和value值

在resources下新建input.html

通過以上操作,大家可能對jsoup有了初步的認識,我們來簡單總結下jsoup語法

<1>查找元素

getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)

<2>元素數據

attr(String key)獲取屬性attr(String key, String value)設置屬性
attributes()獲取所有屬性
id(), className() and classNames()
text()獲取文本內容text(String value) 設置文本內容
html()獲取元素內HTMLhtml(String value)設置元素內的HTML內容
outerHtml()獲取元素外HTML內容
data()獲取數據內容(例如:script和style標簽)
tag() and tagName()

<3>操作HTML和文本

append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

以上就是jsoup簡單的操作,作者本身也是第一次接觸,歡迎大家指導學習。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM