python中烦人的锟斤拷（\xef\xbf\xbd）

本文转载自查看原文 2016-07-26 13:00 4870 python/ 文本编码

首先要知道\xef\xbf\xbd是啥东西

>>> u'\uFFFD'.encode('utf-8')
'\xef\xbf\xbd'

由此我们可以知道\xef\xbf\xbd是utf8编码的'\uFFFD'，那么这个'\uFFFD'是啥东西呢？

原来是因为Unicode和老编码体系的转化过程中，肯定有一些字，用Unicode是没法表示的，Unicode官方用了一个占位符来表示这些文字，这就是：U+FFFD REPLACEMENT CHARACTER。

>>> "\xef\xbf\xbd".decode("utf-8")
u'\ufffd'

所以，如果你的文本中有一些字符是unicode表示不了的，在python程序读入的时候就会转成\xef\xbf\xbd，如果在某些地方变成了unicode，那么内部就会变成

u'\ufffd'，然而你再也不能转为str了。

如果你碰巧用到这些字符串作为字典的key，那么就会报key_error的错误了。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 “锟斤拷”的前世今生两个"�"="锟斤拷"？ “烫烫烫”与“锟斤拷”的原理 QQbot 锟斤拷使用手册组成原理|手持两把锟斤拷，口中疾呼烫烫烫解决\xEF\xBB\xBF问题冷笑话-手持两把锟斤拷口中疾呼烫烫烫脚踏千朵屯屯屯笑看万物锘锘锘 python基础：字符编码问题三个不可见的字符（0xEF 0xBB 0xBF，即BOM） “\xef\xbb\xbf”爬坑记录 utf-8编码的csv文件 Excel 打开乱码输出前加 0xEF,0xBB,0xBF 三个char