python中煩人的錕斤拷（\xef\xbf\xbd）

本文轉載自查看原文 2016-07-26 13:00 4870 python/ 文本編碼

首先要知道\xef\xbf\xbd是啥東西

>>> u'\uFFFD'.encode('utf-8')
'\xef\xbf\xbd'

由此我們可以知道\xef\xbf\xbd是utf8編碼的'\uFFFD'，那么這個'\uFFFD'是啥東西呢？

原來是因為Unicode和老編碼體系的轉化過程中，肯定有一些字，用Unicode是沒法表示的，Unicode官方用了一個占位符來表示這些文字，這就是：U+FFFD REPLACEMENT CHARACTER。

>>> "\xef\xbf\xbd".decode("utf-8")
u'\ufffd'

所以，如果你的文本中有一些字符是unicode表示不了的，在python程序讀入的時候就會轉成\xef\xbf\xbd，如果在某些地方變成了unicode，那么內部就會變成

u'\ufffd'，然而你再也不能轉為str了。

如果你碰巧用到這些字符串作為字典的key，那么就會報key_error的錯誤了。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 “錕斤拷”的前世今生兩個"�"="錕斤拷"？ “燙燙燙”與“錕斤拷”的原理 QQbot 錕斤拷使用手冊組成原理|手持兩把錕斤拷，口中疾呼燙燙燙解決\xEF\xBB\xBF問題冷笑話-手持兩把錕斤拷口中疾呼燙燙燙腳踏千朵屯屯屯笑看萬物鍩鍩鍩 python基礎：字符編碼問題三個不可見的字符（0xEF 0xBB 0xBF，即BOM） “\xef\xbb\xbf”爬坑記錄 utf-8編碼的csv文件 Excel 打開亂碼輸出前加 0xEF,0xBB,0xBF 三個char