Python3 【解析庫XPath】

本文轉載自查看原文 2020-04-18 14:59 1527 Python3網絡開發爬蟲實戰

一.XPath簡介

對網頁的層級關系進行解析,XPath的選擇功能十分強大,它提供了非常簡潔明了的路徑選擇表達式。

另外，它還提供了超過100個內建函數，用於字符串、數值、時間的匹配以及節點、序列的處理等，

幾乎所有的定位節點，都可以用XPath進行選擇。

官網: https://www.w3.org/TR/xpath

1.XPath常用規則:

二.基本的使用

from lxml import etree

text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#將網頁整體補為網頁結構，打開文件路徑
#html = etree.parse('demo.html',etree.HTMLParser())

print(html)

#將網頁轉換為文本類型,為bytes
result = etree.tostring(html)

#轉化為str類型
result = result.decode("utf-8")

print(result)

1.匹配選擇(所有節點)

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配
result = html.xpath('//*')

print(result)

2.子節點

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配
result = html.xpath('//li/a')

print(result)

這里"/"代表的是直接的子節點,"//"代表是所有的子孫節點

3.父節點

父節點:使用".."，也可以使用parent::代表父級

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配
#屬性為link4的a標簽的父級的class屬性
result = html.xpath('//a[@href="link4"]/../@class')

#@表示屬性
result1 = html.xpath('//a[@href="link4"]/parent::*/@class')

print(result)
print(result1)

4.文本獲取

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配
#屬性為link4的a標簽的父級的class屬性
result = html.xpath('//a[@href="link4"]/text()')

print(result)

5.屬性多值匹配

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配
#contains(@屬性,值)
result = html.xpath('//li[contains(@class,"three")]/a/text()')

print(result)

6.多屬性匹配

多個屬性確定一個節點,這時就需要匹配多個屬性

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配
#contains(@屬性,值)
result = html.xpath('//li[contains(@class,"three") and @name="item"]/a/text()')

print(result)

7.按序選擇

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配

#匹配第一個li
result1 = html.xpath('//li[1]/a/text()')

#最后一個倒數2
result2 = html.xpath('//li[last()-2]/a/text()')

#最后一個
result3 = html.xpath('//li[last()]/a/text()')

#小於3
result4 = html.xpath('//li[position()<3]/a/text()')


#內置函數100，http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result1)
print(result2)
print(result3)
print(result4)

8.節點軸選擇

1.ancestor

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/ancestor::*')


#內置函數100，http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)

我們調用了ancestor軸，可以獲取所有祖先節點。其后需要跟兩個冒號,然后是節點的選擇器，這里直接使用*,表示匹配所有的節點，因此返回結果是第一個li節點的所有祖先節點，包括html,body,div和ul.

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/ancestor::div')


#內置函數100，http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)

View Code

我們又加了限制條件，這次在冒號后面加了div，這樣得到的結果就只有div這個祖先節點了。

2.atrribute

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/attribute::*')


#內置函數100，http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)

View Code

我們調用了attribute軸，可以獲取所有屬性值，其后跟的選擇器還是*，這代表獲取節點的所有屬性，返回值就是li節點的所有屬性值

3.child

我們調用了child軸，可以獲取所有直接子節點。這里我們又加了限定條件，選取href
屬性為link1的a節點

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1">1</a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/child::a[@href="link1"]')


#內置函數100，http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)

View Code

4.descendant

我們調用了descendant軸，可以獲取所有子孫節點。這里我們又加了限制條件獲取
span節點，所以返回的結果只包含span節點而不包含a節點

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1"><span>1</span></a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/descendant::span')


#內置函數100，http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)

View Code

5.following

我們調用了following軸,可以獲取當前節點之后的所有節點。這里我們雖然使用的是
*匹配，但又加了索引選擇，所以只獲取了第二個后續節點。

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1"><span>1</span></a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/following::*[2]')


#內置函數100，http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)

View Code

6.following-siblings

from lxml import etree


text = '''
<div>
    <ul>
        <li class="one"><a href="link1"><span>1</span></a></li>
        <li class="two three" name="item"><a href="link2">2</a></li>
        <li class="three two"><a href="link3">3</a></li>
        <li class="four"><a href="link4">4</a></li>
        <li class="five"><a href="link5">5</a>
    </ul>
</div>

'''
#將文本轉換為網頁類型，並修復補全
html = etree.HTML(text)

#選擇內容匹配

result = html.xpath('//li[1]/following-sibling::*')


#內置函數100，http://www.w3school.com.cn/xpath/xpath_functions.asp
print(result)

View Code

我們調用了following-sibling軸，可以獲取當前節點之后的所有同級節點。這里我們
使用*匹配，所以獲取了所有后續同級節點。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python3爬蟲（五）解析庫的使用之XPath Python解析庫lxml與xpath用法總結 python爬蟲中XPath和lxml解析庫 Python3解析庫lxml python3解析庫lxml python3解析庫pyquery 爬蟲之解析庫Xpath Python3 BeautifulSoup和Pyquery解析庫隨筆 python3解析庫BeautifulSoup4 BeautifulSoup與Xpath解析庫總結