python爬蟲（十三） lxml模塊

本文轉載自查看原文 2020-02-29 20:49 891

lxml是一個HTML/XML的解析庫，主要功能是如何解析和提取HTML/XML數據

lxml和正則一樣，是用c實現的，我們可以用XPath語法，來快速的定位特定元素以及節點信息。需要用到pip。

使用：

1、解析一段html的字符串

from lxml import etree

text="""

# 一段html代碼
"""

htmlElement=etree.HTML(text)
print(etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))

使用etree.HTML（）

不需要解析器

2、解析一個html代碼的文件

htmlElement=etree.parse("xxx.html")
print(etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))

使用etree.parse("xxx.html")

但是這個方法不能處理一些不規范的標簽

所以要加一行解析器：parser=etree.HTMLParser(encoding='utf-8')

from lxml import etree



parser=etree.HTMLParser(encoding='utf-8')
htmlElement=etree.parse("lagou.html",parser=parser)

print(etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))

結果：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲網頁解析之lxml模塊 python3爬蟲lxml模塊的安裝 Python爬蟲：lxml模塊分析並獲取網頁內容 Python 之lxml解析模塊 Python爬蟲lxml解析實戰 python網絡爬蟲之LXML與HTMLParser python模塊--BeautifulSoup4 和 lxml python爬蟲中XPath和lxml解析庫 Python爬蟲(十二)_XPath與lxml類庫 Python爬蟲 | lxml解析html頁面