關於xpath路徑的寫法
1.選取節點
表達式 | 描述 |
---|---|
nodename | 選取此節點的所有子節點。 |
/ | 從根節點選取。 |
// | 從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置。 |
. | 選取當前節點。 |
.. | 選取當前節點的父節點。 |
@ | 選取屬性。 |
路徑表達式 | 結果 |
---|---|
bookstore | 選取 bookstore 元素的所有子節點。 |
/bookstore | 選取根元素 bookstore。注釋:假如路徑起始於正斜杠( / ),則此路徑始終代表到某元素的絕對路徑! |
bookstore/book | 選取屬於 bookstore 的子元素的所有 book 元素。 |
//book | 選取所有 book 子元素,而不管它們在文檔中的位置。 |
bookstore//book | 選擇屬於 bookstore 元素的后代的所有 book 元素,而不管它們位於 bookstore 之下的什么位置。 |
//@lang | 選取名為 lang 的所有屬性 |
舉例
1.查找頁面根元素://
2.查找頁面上所有的input元素://input
3.查找頁面上第一個form元素內的直接子input元素(即只包括form元素的下一級input元素,使用絕對路徑表示, 單/號)://form[1]/input
4.查找頁面上第一個form元素內的所有子input元素(只要在form元素內的input都算,不管還嵌套了多少個其他標 簽,使用相對路徑表示,雙//號)://form[1]//input
5.查找頁面上第一個form元素://form[1]
6.查找頁面上id為loginForm的form元素://form[@id='loginForm']
7.查找頁面上具有name屬性為username的input元素://input[@name='username']
8.查找頁面上id為loginForm的form元素下的第一個input元素://form[@id='loginForm']/input[1]
9.查找頁面具有name屬性為contiune並且type屬性為button的input元素://input[@name='continue'][@type='button']
10.查找網頁中所有屬性為id的元素 😕/@id
2.對於節點查找的內容進行修飾
舉例
路徑表達式 | 結果 |
---|---|
/bookstore/book[1] | 選取屬於 bookstore 子元素的第一個 book 元素。 |
/bookstore/book[last()] | 選取屬於 bookstore 子元素的最后一個 book 元素。 |
/bookstore/book[last()-1] | 選取屬於 bookstore 子元素的倒數第二個 book 元素。 |
/bookstore/book[position()❤️] | 選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。 |
//title[@lang] | 選取所有擁有名為 lang 的屬性的 title 元素。 |
//title[@lang='eng'] | 選取所有 title 元素,且這些元素擁有值為 eng 的 lang 屬性。 |
/bookstore/book[price>35.00] | 選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大於 35.00。 |
/bookstore/book[price>35.00]/title | 選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大於 35.00。 |
3.選取未知節點
通配符 | 描述 |
---|---|
* | 匹配任何元素節點。 |
@* | 匹配任何屬性節點。 |
node() | 匹配任何類型的節點。 |
舉例
路徑表達式 | 結果 |
---|---|
/bookstore/* | 選取 bookstore 元素的所有子元素。 |
//* | 選取文檔中的所有元素。 |
//title[@*] | 選取所有帶有屬性的 title 元素。 |
4.選取若干路徑
通過在路徑表達式中使用“|”運算符,您可以選取若干個路徑。
路徑表達式 | 結果 |
---|---|
//book/title | //book/price | 選取 book 元素的所有 title 和 price 元素。 |
//title | //price | 選取文檔中的所有 title 和 price 元素。 |
/bookstore/book/title | //price | 選取屬於 bookstore 元素的 book 元素的所有 title 元素,以及文檔中所有的 price 元素。 |
5.關鍵字
用例 | 舉例 |
---|---|
text() | book/author/text() |
string() | book/author/string() |
data() | book/author/data() |
. | book/author/. |
舉例
XML例子
<book>
<author>Tom <em>John</em> cat</author>
<pricing>
<price>20</price>
<discount>0.8</discount>
</pricing>
</book>
text()
經常在XPath表達式的最后看到text(),它僅僅返回所指元素的文本內容。
爬取的xpath格式為book/author/text()
爬取下來的內容是Tom cat
其中的John不屬於author直接的節點內容。
string()
string()函數會得到所指元素的所有節點文本內容,這些文本講會被拼接成一個字符串。
爬取的xpath格式為book/author/string()
爬取下來的內容是Tom John cat
author頭到尾部中間所有的內容都爬出來
data()
大多數時候,data()函數和string()函數通用,而且不建議經常使用data()函數,有數據表明,該函數會影響XPath的性能。
爬取的xpath格式為book/pricing/data()
爬取下來的內容是返回分開的20和0.8
他們的類型並不是字符串而是xs:anyAtomicType,於是就可以使用數學函數做一定操作。
爬取內容都為數字的時候只能使用data(),不能使用text()或 string(),因為XPath不支持字符串做數學運算。