一.XPath簡介
對網頁的層級關系進行解析,XPath的選擇功能十分強大,它提供了非常簡潔明了的路徑選擇表達式。
另外,它還提供了超過100個內建函數,用於字符串、數值、時間的匹配以及節點、序列的處理等,
幾乎所有的定位節點,都可以用XPath進行選擇。
官網: https://www.w3.org/TR/xpath
1.XPath常用規則:

二.基本的使用
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two"><a href="link2">2</a></li> <li class="three"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #將網頁整體補為網頁結構,打開文件路徑 #html = etree.parse('demo.html',etree.HTMLParser()) print(html) #將網頁轉換為文本類型,為bytes result = etree.tostring(html) #轉化為str類型 result = result.decode("utf-8") print(result)
1.匹配選擇(所有節點)
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two"><a href="link2">2</a></li> <li class="three"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 result = html.xpath('//*') print(result)

2.子節點
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two"><a href="link2">2</a></li> <li class="three"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 result = html.xpath('//li/a') print(result)
這里"/"代表的是直接的子節點,"//"代表是所有的子孫節點

3.父節點
父節點:使用"..",也可以使用parent::代表父級
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two"><a href="link2">2</a></li> <li class="three"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 #屬性為link4的a標簽的父級的class屬性 result = html.xpath('//a[@href="link4"]/../@class') #@表示屬性 result1 = html.xpath('//a[@href="link4"]/parent::*/@class') print(result) print(result1)

4.文本獲取
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two"><a href="link2">2</a></li> <li class="three"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 #屬性為link4的a標簽的父級的class屬性 result = html.xpath('//a[@href="link4"]/text()') print(result)

5.屬性多值匹配
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two"><a href="link2">2</a></li> <li class="three two"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 #contains(@屬性,值) result = html.xpath('//li[contains(@class,"three")]/a/text()') print(result)
6.多屬性匹配
多個屬性確定一個節點,這時就需要匹配多個屬性
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two three" name="item"><a href="link2">2</a></li> <li class="three two"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 #contains(@屬性,值) result = html.xpath('//li[contains(@class,"three") and @name="item"]/a/text()') print(result)
7.按序選擇
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two three" name="item"><a href="link2">2</a></li> <li class="three two"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 #匹配第一個li result1 = html.xpath('//li[1]/a/text()') #最后一個倒數2 result2 = html.xpath('//li[last()-2]/a/text()') #最后一個 result3 = html.xpath('//li[last()]/a/text()') #小於3 result4 = html.xpath('//li[position()<3]/a/text()') #內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp print(result1) print(result2) print(result3) print(result4)

8.節點軸選擇
1.ancestor
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two three" name="item"><a href="link2">2</a></li> <li class="three two"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 result = html.xpath('//li[1]/ancestor::*') #內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp print(result)
我們調用了ancestor軸,可以獲取所有祖先節點。其后需要跟兩個冒號,然后是節點的選擇器,這里直接使用*,表示匹配所有的節點,因此返回結果是第一個li節點的所有祖先節點,包括html,body,div和ul.
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two three" name="item"><a href="link2">2</a></li> <li class="three two"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 result = html.xpath('//li[1]/ancestor::div') #內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp print(result)
我們又加了限制條件,這次在冒號后面加了div,這樣得到的結果就只有div這個祖先節點了。
2.atrribute
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two three" name="item"><a href="link2">2</a></li> <li class="three two"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 result = html.xpath('//li[1]/attribute::*') #內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp print(result)
我們調用了attribute軸,可以獲取所有屬性值,其后跟的選擇器還是*,這代表獲取節點的所有屬性,返回值就是li節點的所有屬性值
3.child
我們調用了child軸,可以獲取所有直接子節點。這里我們又加了限定條件,選取href
屬性為link1的a節點
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1">1</a></li> <li class="two three" name="item"><a href="link2">2</a></li> <li class="three two"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 result = html.xpath('//li[1]/child::a[@href="link1"]') #內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp print(result)
4.descendant
我們調用了descendant軸,可以獲取所有子孫節點。這里我們又加了限制條件獲取
span節點,所以返回的結果只包含span節點而不包含a節點
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1"><span>1</span></a></li> <li class="two three" name="item"><a href="link2">2</a></li> <li class="three two"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 result = html.xpath('//li[1]/descendant::span') #內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp print(result)
5.following
我們調用了following軸,可以獲取當前節點之后的所有節點。這里我們雖然使用的是
*匹配,但又加了索引選擇,所以只獲取了第二個后續節點。
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1"><span>1</span></a></li> <li class="two three" name="item"><a href="link2">2</a></li> <li class="three two"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 result = html.xpath('//li[1]/following::*[2]') #內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp print(result)
6.following-siblings
from lxml import etree text = ''' <div> <ul> <li class="one"><a href="link1"><span>1</span></a></li> <li class="two three" name="item"><a href="link2">2</a></li> <li class="three two"><a href="link3">3</a></li> <li class="four"><a href="link4">4</a></li> <li class="five"><a href="link5">5</a> </ul> </div> ''' #將文本轉換為網頁類型,並修復補全 html = etree.HTML(text) #選擇內容匹配 result = html.xpath('//li[1]/following-sibling::*') #內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp print(result)
我們調用了following-sibling軸,可以獲取當前節點之后的所有同級節點。這里我們
使用*匹配,所以獲取了所有后續同級節點。
