含html轉義字符編碼(四)轉換--python

本文轉載自查看原文 2018-07-20 17:06 4791

在抓取下來的網頁源碼顯示的是如下的內容,而不是可讀性的漢字

（當然，如果是在Web頁面上展示，則實體會自動被瀏覽器轉為原字符，正常顯示）

經查資料后得知, 在網頁中以四開頭的是HTML實體,具體什么是HTML實體,請百度:http://baike.baidu.com/view/4757776.htm

如何把漢字轉換成HTML實體呢？

其實很簡單，漢字的HTML實體由三部分組成，”&#+ASCII+;“ 即可。

Python中提供了一個模塊：HTMLParser，里面有很多好用的方法，

我們可以使用：dir(HTMLParser.HTMLParser)查看該模塊下的HTMLParser類屬性，其中有一個方法：unescape()，

再使用：help(HTMLParser.HTMLParser.unescape)，可以看到該方法的說明信息，但是幾乎沒什么用。其實該方法就是將HTML實體（帶有&#符號打頭的）進行解碼，轉換為原有字符。下面是簡單實例：

import HTMLParser
def decodeHtml(input):
    h = HTMLParser.HTMLParser()
    s = h.unescape(input)
    return s
c = (含html轉義字符的內容, 如需測試請自行粘貼)

print decodeHtml(c)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 HTML轉義字符&url編碼表 Python：編碼與解碼和轉義字符 HTML 轉義字符 Python-HTML轉義字符 Python 轉義字符 python轉義字符 python轉義字符 Python轉義字符轉義字符及URI編碼 Python 轉義字符