記-html格式轉換(編碼中文亂碼現象)

本文轉載自查看原文 2020-09-17 19:34 615 python/ html轉義字符/ html/ 編碼格式

import html

# 轉義html格式

test_str = '"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv'

result_str = html.unescape(test_str)

print(result_str) # 輸出沒有轉義的html字符串

輸出結果為:"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv

# 解決編碼問題

# 在python中，對於unicode存儲時，可以采用另一種方法：將unicode的內存編碼值進行存儲，讀取文件時在反向轉換回來。這里就采用了unicode-escape的方式

str = result_str.encode().decode('unicode_escape') # unicode_escape解碼

# 發現中文亂碼了

str.encode('latin-1').decode('utf-8') # 得到正常中文

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 中文亂碼？不，是 HTML 實體編碼！ Python保存的csv格式，中文在Excel中亂碼——編碼 Docker容器中文亂碼(修改docker容器編碼格式解決docker容器中文亂碼，修改docker容器編碼格式 java中文GBK和UTF-8編碼轉換亂碼的分析 golang 編碼轉換 gbk轉碼utf 爬蟲中文亂碼 php 數組編碼轉換方法關於fgetcsv中文亂碼問題 Pycharm 輸出中文或打印中文亂碼現象的解決辦法 Pycharm 輸出中文或打印中文亂碼現象的解決辦法 html中文亂碼