import html
# 轉義html格式
test_str = '"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv'
result_str = html.unescape(test_str)
print(result_str) # 輸出沒有轉義的html字符串
輸出結果為:"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv
# 解決編碼問題
# 在python中,對於unicode存儲時,可以采用另一種方法:將unicode的內存編碼值進行存儲,讀取文件時在反向轉換回來。這里就采用了unicode-escape的方式
str = result_str.encode().decode('unicode_escape') # unicode_escape解碼
# 發現中文亂碼了
str.encode('latin-1').decode('utf-8') # 得到正常中文