第一次接觸jsoup還是在處理收貨地址的時候,當時在寫一個下單流程,需要省市區id以及詳細門牌號等等,因此同事介紹了jsoup,閑來無事,在此閑扯一番!
1.我們來看下,什么是jsoup,先來看看官方文檔是怎么說的:
jsoup: Java HTML Parser,jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.
簡單來說就是從HTML頁面獲取數據。
2.jsoup能處理什么呢?
(1)沒有關閉的標簽 (比如: <p>Lorem <p>Ipsum parses to <p>Lorem</p> <p>Ipsum</p>)
(2)隱式標簽 (比如. 它可以自動將 <td>Table data</td>包裝成<table><tr><td>?)
(3)創建可靠的文檔結構(html標簽包含head 和 body,在head只出現恰當的元素)
3.先來看看實際操作吧
(1)從一個URL加載一個Document
首先我們新建一個java project,用jsoup獲取百度title,結構如下圖所示,下載jsoup包,如:jsoup-1.10.2.jar,將包引入jsoupdemo工程中
(2)從文件中加載HTML,並用jsoup解析
在該工程下新建一個package,名為resources,將百度首頁源碼保存為一個HTML文件,我們讀取該HTML文件,並獲取輸入框的屬性為id的值kw.
(3)使用DOM方法來遍歷一個文檔,獲取name屬性和value值
在resources下新建input.html
通過以上操作,大家可能對jsoup有了初步的認識,我們來簡單總結下jsoup語法
<1>查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
<2>元素數據
attr(String key)獲取屬性attr(String key, String value)設置屬性
attributes()獲取所有屬性
id(), className() and classNames()
text()獲取文本內容text(String value) 設置文本內容
html()獲取元素內HTMLhtml(String value)設置元素內的HTML內容
outerHtml()獲取元素外HTML內容
data()獲取數據內容(例如:script和style標簽)
tag() and tagName()
<3>操作HTML和文本
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)
以上就是jsoup簡單的操作,作者本身也是第一次接觸,歡迎大家指導學習。