python 提取整個 HTML 節點

本文轉載自查看原文 2019-07-09 20:25 1110 python/ unescape/ lxml/ 中文亂碼/ html/ Python

有的時候，需要把整個 HTML 節點原封不動地取下來，也就是包括節點標簽、節點內容，甚至也包括內容中的空格、各種特殊符號等等。

假設已獲取到頁面源碼，並將其保存在變量 src 中。則可有代碼如下：


from html import unescape
from lxml import etree
from lxml import html


# 先加載頁面源碼，便於后續使用 XPath 解析
root = etree.HTML(src)

# 根據 XPath 路徑提取節點
script = root.xpath('//script')[-1]

# 關鍵的一步：把整個節點轉為字符串
raw_tab = html.tostring(script)

# 此時 print(raw_tab) 會遇到中文亂碼（其實不是亂碼，是另一種編碼顯示了）的情況，需要使用 unescape
json_str = json.loads(raw_tab)
print(unescape(json_str['$meta']['cityName']))

# 如果本身不是 json 字符串，則因為 unescape 函數接收的是 bytes-like 對象，所以需要先 decode
print(unescape(raw_tab.decode()))

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python Xpath 提取html整個元素（標簽與內容） python 正則提取HTml標簽文本內容的 Python中BeautifulSoup中對HTML標簽的提取用WKWebView 截取整個Html頁面 HTML DIV充滿整個屏幕 python(初學提取html頁面元素，借用老師) 從html中提取純文本 html 提取公用部分從html中提取純文本 JS獲取整個網頁html代碼