XPath語法和lxml模塊(詳解)

本文轉載自查看原文 2020-04-27 15:54 897 python 基礎學習

文章目錄
一、什么是XPath？
二、xpath helper插件
三、xpath helper安裝使用方法
四、XPath語法
4.1 節點語法
4.2 節點實例
4.3 謂語（Predicates）
4.4 選取未知節點
4.5 選取若干路徑
五、XPath 軸
5.1 軸常用語法
5.2 位置路徑表達式
5.3 步（step）的用法：
5.4 步的語法：
5.5 實例
六、XPath 運算符
6.1 XPath 表達式中常用運算符
七、XPath其他
7.1 使用方式：
7.2 需要注意的知識點：
八、lxml庫
8.1 基本使用：
8.2 從文件中讀取html代碼：
8.3 在lxml中使用xpath語法
8.4 代碼實例
一、什么是XPath？
xpath（XML Path Language）是一門在XML和HTML文檔中查找信息的語言，可用來在XML和HTML文檔中對元素和屬性進行遍歷。

二、xpath helper插件
xpath helper插件是一款免費的chrome爬蟲網頁解析工具。可以幫助用戶解決在獲取xpath路徑時無法正常定位等問題。該插件主要能幫助你在各類網站上通過按shift鍵選擇想要查看的頁面元素來提取查詢其代碼，同時你還能對查詢出來的代碼進行編輯，而編輯出的結果將立即顯示在旁邊的結果框中。

三、xpath helper安裝使用方法
Chrome插件XPath Helper。

安裝方法：

https://download.csdn.net/download/weixin_42444693/12265783 ，下載安裝包解壓到本地。 (本人實測上傳，記得看壓縮包說明)

谷歌瀏覽器輸入 chrome://extensions/ 進入拓展程序界面

打開開發者模式，選擇加載已解壓的擴展程序，選擇剛剛解壓的文件路徑打開即可

重啟瀏覽器使用

提示：如果刪除文件夾會導致拓展功能無法使用，最好不要將壓縮包解壓到桌面安裝使用

四、XPath語法
在 XPath 中，有七種類型的節點：元素、屬性、文本、命名空間、處理指令、注釋以及文檔（根）節點。XML 文檔是被作為節點樹來對待的。樹的根被稱為文檔節點或者根節點。

4.1 節點語法
XPath 使用路徑表達式在 XML 文檔中選取節點。節點是通過沿着路徑或者 step 來選取的。

下面列出了最有用的路徑表達式：

表達式描述
nodename 選取此節點的所有子節點。
/ 從根節點選取。
// 從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。
. 選取當前節點。
… 選取當前節點的父節點。
@ 選取屬性。
4.2 節點實例
路徑表達式結果
bookstore 選取 bookstore 元素的所有子節點。
/bookstore 選取根元素 bookstore。注釋：假如路徑起始於正斜杠( / )，則此路徑始終代表到某元素的絕對路徑！
bookstore/book 選取屬於 bookstore 的子元素的所有 book 元素。
//book 選取所有 book 子元素，而不管它們在文檔中的位置。
bookstore//book 選擇屬於 bookstore 元素的后代的所有 book 元素，而不管它們位於 bookstore 之下的什么位置。
//@lang 選取名為 lang 的所有屬性。
4.3 謂語（Predicates）
謂語用來查找某個特定的節點或者包含某個指定的值的節點。謂語被嵌在方括號中。

帶有謂語的一些路徑表達式，以及表達式的結果：

路徑表達式結果
/bookstore/book[1] 選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()] 選取屬於 bookstore 子元素的最后一個 book 元素。
/bookstore/book[last()-1] 選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()❤️] 選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang] 選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang=‘eng’] 選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00] 選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00。
/bookstore/book[price>35.00]/title 選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。
4.4 選取未知節點
XPath 通配符可用來選取未知的 XML 元素。

通配符描述
* 匹配任何元素節點。
@* 匹配任何屬性節點。
node() 匹配任何類型的節點。
4.5 選取若干路徑
通過在路徑表達式中使用“|”運算符，您可以選取若干個路徑。

實例

路徑表達式結果
//book/title | //book/price 選取 book 元素的所有 title 和 price 元素。
//title | //price 選取文檔中的所有 title 和 price 元素。
/bookstore/book/title | //price 選取屬於 bookstore 元素的 book 元素的所有 title 元素，以及文檔中所有的 price 元素。
五、XPath 軸
軸可定義相對於當前節點的節點集。

5.1 軸常用語法
軸名稱結果
ancestor 選取當前節點的所有先輩（父、祖父等）。
ancestor-or-self 選取當前節點的所有先輩（父、祖父等）以及當前節點本身。
attribute 選取當前節點的所有屬性。
child 選取當前節點的所有子元素。
descendant 選取當前節點的所有后代元素（子、孫等）。
descendant-or-self 選取當前節點的所有后代元素（子、孫等）以及當前節點本身。
following 選取文檔中當前節點的結束標簽之后的所有節點。
namespace 選取當前節點的所有命名空間節點。
parent 選取當前節點的父節點。
preceding 選取文檔中當前節點的開始標簽之前的所有節點。
preceding-sibling 選取當前節點之前的所有同級節點。
self 選取當前節點。
5.2 位置路徑表達式
位置路徑可以是絕對的，也可以是相對的。

絕對路徑起始於正斜杠( / )，而相對路徑不會這樣。在兩種情況中，位置路徑均包括一個或多個步，每個步均被斜杠分割：

絕對位置路徑：

/step/step/...
1
相對位置路徑：

step/step/...
1
每個步均根據當前節點集之中的節點來進行計算。

5.3 步（step）的用法：
軸（axis）

定義所選節點與當前節點之間的樹關系

節點測試（node-test）

識別某個軸內部的節點

零個或者更多謂語（predicate）

更深入地提煉所選的節點集

5.4 步的語法：
軸名稱::節點測試[謂語]
1
5.5 實例
例子結果
child::book 選取所有屬於當前節點的子元素的 book 節點。
attribute::lang 選取當前節點的 lang 屬性。
child:😗 選取當前節點的所有子元素。
attribute:😗 選取當前節點的所有屬性。
child::text() 選取當前節點的所有文本子節點。
child::node() 選取當前節點的所有子節點。
descendant::book 選取當前節點的所有 book 后代。
ancestor::book 選擇當前節點的所有 book 先輩。
ancestor-or-self::book 選取當前節點的所有 book 先輩以及當前節點（如果此節點是 book 節點）
child:😗/child::price 選取當前節點的所有 price 孫節點。
六、XPath 運算符
XPath 表達式可返回節點集、字符串、邏輯值以及數字。

6.1 XPath 表達式中常用運算符
運算符描述實例返回值
| 計算兩個節點集 //book | //cd 返回所有擁有 book 和 cd 元素的節點集
+ 加法 6 + 4 10
- 減法 6 - 4 2
* 乘法 6 * 4 24
div 除法 8 div 4 2
= 等於 price=9.80 如果 price 是 9.80，則返回 true。如果 price 是 9.90，則返回 false。
!= 不等於 price!=9.80 如果 price 是 9.90，則返回 true。如果 price 是 9.80，則返回 false。
< 小於 price<9.80 如果 price 是 9.00，則返回 true。如果 price 是 9.90，則返回 false。
<= 小於或等於 price<=9.80 如果 price 是 9.00，則返回 true。如果 price 是 9.90，則返回 false。
> 大於 price>9.80 如果 price 是 9.90，則返回 true。如果 price 是 9.80，則返回 false。
>= 大於或等於 price>=9.80 如果 price 是 9.90，則返回 true。如果 price 是 9.70，則返回 false。
or 或 price=9.80 or price=9.70 如果 price 是 9.80，則返回 true。如果 price 是 9.50，則返回 false。
and 與 price>9.00 and price<9.90 如果 price 是 9.80，則返回 true。如果 price 是 8.50，則返回 false。
mod 計算除法的余數 5 mod 2 1
七、XPath其他
7.1 使用方式：
使用//獲取整個頁面當中的元素，然后寫標簽名，然后在寫謂語進行提取，比如：

//title[@lang='en']
1
7.2 需要注意的知識點：
/和//的區別：/代表只獲取子節點，//獲取子孫節點，一般//用的比較多，當然也要視情況而定

contains：有時候某個屬性中包含了多個值，那么可以使用contains函數，示例如下：

//title[contains(@lang,'en')]
1
謂詞中下標是從1開始的，不是從0開始的

八、lxml庫
lxml是一個 HTML/XML的解析器,主要的功能是如何解析和提取HTML/XML數據。
lxml和正則一樣,也是用C實現的,是一款高性能的 Python HTML/XML解折,我們可以利用之學習的Xpath語法,來快速的定位特定元素以及節點信息。

lxmlpython官方文檔：http://hxmlde/indexhtml

8.1 基本使用：
from lxml import etree

text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''
# 將字符串解析為html文檔
html = etree.HTML(text)
print(html)
# 按字符串序列化html
result = etree.tostring(html).decode('utf-8')
print(result)

8.2 從文件中讀取html代碼：
#讀取
html = etree.parse('hello.html')

result = etree.tostring(html).decode('utf-8')
print(result)

8.3 在lxml中使用xpath語法

<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>

8.4 代碼實例
from lxml import etree
html = etree.parse('hello.html')
# 獲取所有li標簽：
# result = html.xpath('//li')
# print(result)
# for i in result:
# print(etree.tostring(i))
# 獲取所有li元素下的所有class屬性的值：
# result = html.xpath('//li/@class')
# print(result)
# 獲取li標簽下href為www.baidu.com的a標簽：
# result = html.xpath('//li/a[@href="www.baidu.com"]')
# print(result)
# 獲取li標簽下所有span標簽：
# result = html.xpath('//li//span')
# print(result)
# 獲取li標簽下的a標簽里的所有class：
# result = html.xpath('//li/a//@class')
# print(result)
# 獲取最后一個li的a的href屬性對應的值：
# result = html.xpath('//li[last()]/a/@href')
# print(result)
# 獲取倒數第二個li元素的內容：
# result = html.xpath('//li[last()-1]/a')
# print(result)
# print(result[0].text)
# 獲取倒數第二個li元素的內容的第二種方式：
result = html.xpath('//li[last()-1]/a/text()')
print(result)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬蟲利器三之Xpath語法與lxml庫的用法 xpath 語法 Python解析庫lxml與xpath用法總結 python爬蟲中XPath和lxml解析庫 lxml的使用（節點與xpath爬取數據） Python爬蟲(十二)_XPath與lxml類庫 python 使用lxml中的xpath 和 scrpay中的xpath的區別 python模塊--BeautifulSoup4 和 lxml Xpath語法格式整理 Xpath語法&示例