首先要知道\xef\xbf\xbd是啥東西
>>> u'\uFFFD'.encode('utf-8') '\xef\xbf\xbd'
由此我們可以知道\xef\xbf\xbd是utf8編碼的'\uFFFD',那么這個'\uFFFD'是啥東西呢?
原來是因為Unicode和老編碼體系的轉化過程中,肯定有一些字,用Unicode是沒法表示的,Unicode官方用了一個占位符來表示這些文字,這就是:U+FFFD REPLACEMENT CHARACTER。
>>> "\xef\xbf\xbd".decode("utf-8") u'\ufffd'
所以,如果你的文本中有一些字符是unicode表示不了的,在python程序讀入的時候就會轉成\xef\xbf\xbd,如果在某些地方變成了unicode,那么內部就會變成
u'\ufffd',然而你再也不能轉為str了。
如果你碰巧用到這些字符串作為字典的key,那么就會報key_error的錯誤了。