python中煩人的錕斤拷(\xef\xbf\xbd)


首先要知道\xef\xbf\xbd是啥東西

>>> u'\uFFFD'.encode('utf-8')
'\xef\xbf\xbd'

由此我們可以知道\xef\xbf\xbd是utf8編碼的'\uFFFD',那么這個'\uFFFD'是啥東西呢?

原來是因為Unicode和老編碼體系的轉化過程中,肯定有一些字,用Unicode是沒法表示的,Unicode官方用了一個占位符來表示這些文字,這就是:U+FFFD REPLACEMENT CHARACTER。

>>> "\xef\xbf\xbd".decode("utf-8")
u'\ufffd'

所以,如果你的文本中有一些字符是unicode表示不了的,在python程序讀入的時候就會轉成\xef\xbf\xbd,如果在某些地方變成了unicode,那么內部就會變成

u'\ufffd',然而你再也不能轉為str了。

如果你碰巧用到這些字符串作為字典的key,那么就會報key_error的錯誤了。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM