记-html格式转换(编码中文乱码现象)

本文转载自查看原文 2020-09-17 19:34 615 python/ html转义字符/ html/ 编码格式

import html

# 转义html格式

test_str = '"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv'

result_str = html.unescape(test_str)

print(result_str) # 输出没有转义的html字符串

输出结果为:"\u003Ch1\u003E第一\u003C\u002Fh1\u003E\u003Cdiv

# 解决编码问题

# 在python中，对于unicode存储时，可以采用另一种方法：将unicode的内存编码值进行存储，读取文件时在反向转换回来。这里就采用了unicode-escape的方式

str = result_str.encode().decode('unicode_escape') # unicode_escape解码

# 发现中文乱码了

str.encode('latin-1').decode('utf-8') # 得到正常中文

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 中文乱码？不，是 HTML 实体编码！ Python保存的csv格式，中文在Excel中乱码——编码 Docker容器中文乱码(修改docker容器编码格式解决docker容器中文乱码，修改docker容器编码格式 java中文GBK和UTF-8编码转换乱码的分析 golang 编码转换 gbk转码utf 爬虫中文乱码 php 数组编码转换方法关于fgetcsv中文乱码问题 Pycharm 输出中文或打印中文乱码现象的解决办法 Pycharm 输出中文或打印中文乱码现象的解决办法 html中文乱码