lxml.etree 教程5：Using XPath to find text

本文轉載自查看原文 2013-06-10 20:34 4664 Python

另外一個獲取樹里面文本內容的方法是XPath，它一樣可以把文本內容提取到列表中。

>>> print(html.xpath("string()")) # lxml.etree only!
TEXTTAIL
>>> print(html.xpath("//text()")) # lxml.etree only!
['TEXT', 'TAIL']

如果你比較頻繁使用這個方式，可以包裝成一個函數。

>>> build_text_list = etree.XPath("//text()") # lxml.etree only!
>>> print(build_text_list(html))
['TEXT', 'TAIL']

注意到一個XPath返回的字符串結果是一個特殊的“聰明”的對象，它知道它來自何處。

>>> texts = build_text_list(html)
>>> print(texts[0])
TEXT
>>> parent = texts[0].getparent()
>>> print(parent.tag)
body

>>> print(texts[1])
TAIL
>>> print(texts[1].getparent().tag)
br

你也可以找出它常規的文本內容或尾部文本:

>>> print(texts[0].is_text)
True
>>> print(texts[1].is_text)
False
>>> print(texts[1].is_tail)
True

>>> stringify = etree.XPath("string()")
>>> print(stringify(html))
TEXTTAIL
>>> print(stringify(html).getparent())
None

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 lxml.etree 教程2： Elements are lists Python 基於lxml.etree實現xpath查找HTML元素【譯】：lxml.etree官方文檔爬蟲之lxml - etree - xpath的使用第十節 lxml.etree解析HTML文件 lxml.etree類型。不能序列化ElementUnicodeResult centOS 使用lxml.etree 模塊報錯 ImportError: cannot import name etree python3.7 lxml4.2.5 etree xpath 的使用 lxml.etree.HTML(text) 解析HTML文檔 python 包之 lxml 中 etree 標簽解析教程