Python3 【解析庫XPath】


一.XPath簡介

  對網頁的層級關系進行解析,XPath的選擇功能十分強大,它提供了非常簡潔明了的路徑選擇表達式。

另外,它還提供了超過100個內建函數,用於字符串、數值、時間的匹配以及節點、序列的處理等,

幾乎所有的定位節點,都可以用XPath進行選擇。

官網: https://www.w3.org/TR/xpath

 

1.XPath常用規則:

                             

 

二.基本的使用

from lxml import etree

text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#將網頁整體補為網頁結構,打開文件路徑
#html = etree.parse('demo.html',etree.HTMLParser())

print(html)

#將網頁轉換為文本類型,為bytes
result = etree.tostring(html)

#轉化為str類型
result = result.decode("utf-8")

print(result)

1.匹配選擇(所有節點)

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配
result = html.xpath('//*')

print(result)

 

 

 

2.子節點

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配
result = html.xpath('//li/a')

print(result)

這里"/"代表的是直接的子節點,"//"代表是所有的子孫節點

 

 

 3.父節點

父節點:使用"..",也可以使用parent::代表父級

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配
#屬性為link4的a標簽的父級的class屬性
result = html.xpath('//a[@href="link4"]/../@class')

#@表示屬性
result1 = html.xpath('//a[@href="link4"]/parent::*/@class')

print(result)
print(result1)

 

 

 

4.文本獲取

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配
#屬性為link4的a標簽的父級的class屬性
result = html.xpath('//a[@href="link4"]/text()')

print(result)

 

 

5.屬性多值匹配

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配
#contains(@屬性,值)
result = html.xpath('//li[contains(@class,"three")]/a/text()')

print(result)

 

6.多屬性匹配

 多個屬性確定一個節點,這時就需要匹配多個屬性

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配
#contains(@屬性,值)
result = html.xpath('//li[contains(@class,"three") and @name="item"]/a/text()')

print(result)

 

7.按序選擇

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配

#匹配第一個li
result1 = html.xpath('//li[1]/a/text()')

#最后一個倒數2
result2 = html.xpath('//li[last()-2]/a/text()')

#最后一個
result3 = html.xpath('//li[last()]/a/text()')

#小於3
result4 = html.xpath('//li[position()<3]/a/text()')


#內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result1)
print(result2)
print(result3)
print(result4)

 

 

8.節點軸選擇

   1.ancestor

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/ancestor::*')


#內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)

     我們調用了ancestor軸,可以獲取所有祖先節點。其后需要跟兩個冒號,然后是節點的選擇器,這里直接使用*,表示匹配所有的節點,因此返回結果是第一個li節點的所有祖先節點,包括html,body,div和ul.

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/ancestor::div')


#內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)
View Code

我們又加了限制條件,這次在冒號后面加了div,這樣得到的結果就只有div這個祖先節點了。

   2.atrribute

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/attribute::*')


#內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)
View Code

我們調用了attribute軸,可以獲取所有屬性值,其后跟的選擇器還是*,這代表獲取節點的所有屬性,返回值就是li節點的所有屬性值

   3.child

我們調用了child軸,可以獲取所有直接子節點。這里我們又加了限定條件,選取href
屬性為link1的a節點

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/child::a[@href="link1"]')


#內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)
View Code

   4.descendant

我們調用了descendant軸,可以獲取所有子孫節點。這里我們又加了限制條件獲取
span節點,所以返回的結果只包含span節點而不包含a節點

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1"><span>1</span></a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/descendant::span')


#內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)
View Code

   5.following

我們調用了following軸,可以獲取當前節點之后的所有節點。這里我們雖然使用的是
*匹配,但又加了索引選擇,所以只獲取了第二個后續節點。

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1"><span>1</span></a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/following::*[2]')


#內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)
View Code

   6.following-siblings

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1"><span>1</span></a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型,並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/following-sibling::*')


#內置函數100,http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)
View Code

我們調用了following-sibling軸,可以獲取當前節點之后的所有同級節點。這里我們
使用*匹配,所以獲取了所有后續同級節點。

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM