記-html格式轉換(編碼中文亂碼現象)


import html

# 轉義html格式

test_str = '"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv'

result_str = html.unescape(test_str)

print(result_str) # 輸出沒有轉義的html字符串

輸出結果為:"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv

# 解決編碼問題

# 在python中,對於unicode存儲時,可以采用另一種方法:將unicode的內存編碼值進行存儲,讀取文件時在反向轉換回來。這里就采用了unicode-escape的方式

str = result_str.encode().decode('unicode_escape') # unicode_escape解碼

# 發現中文亂碼了

str.encode('latin-1').decode('utf-8') # 得到正常中文


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM