记-html格式转换(编码中文乱码现象)


import html

# 转义html格式

test_str = '"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv'

result_str = html.unescape(test_str)

print(result_str) # 输出没有转义的html字符串

输出结果为:"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv

# 解决编码问题

# 在python中,对于unicode存储时,可以采用另一种方法:将unicode的内存编码值进行存储,读取文件时在反向转换回来。这里就采用了unicode-escape的方式

str = result_str.encode().decode('unicode_escape') # unicode_escape解码

# 发现中文乱码了

str.encode('latin-1').decode('utf-8') # 得到正常中文


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM