為什么Python使用過程中會出現各式各樣的亂碼問題,明明是中文字符卻顯示成“\xe4\xb8\xad\xe6\x96\x87”的形式?
為什么會報錯“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就來研究一下這個問題。
decode的作用是將其他編碼的字符串轉換成unicode編碼,如str1.decode('gb2312'),表示將gb2312編碼的字符串str1轉換成unicode編碼。
encode的作用是將unicode編碼轉換成其他編碼的字符串,如str2.encode('gb2312'),表示將unicode編碼的字符串str2轉換成gb2312編碼。
因此,轉碼的時候一定要先搞明白,字符串str是什么編碼,然后decode成unicode,然后再encode成其他編碼
代碼中字符串的默認編碼與代碼文件本身的編碼一致。
如:s='中文'
如果是在utf8的文件中,該字符串就是utf8編碼,如果是在gb2312的文件中,則其編碼為gb2312。這種情況下,要進行編碼轉換,都需要先用decode方法將其轉換成unicode編碼,再使用encode方法將其轉換成其他編碼。通常,在沒有指定特定的編碼方式時,都是使用的系統默認編碼創建的代碼文件。
如果字符串是這樣定義:s=u'中文'
則該字符串的編碼就被指定為unicode了,即python的內部編碼,而與代碼文件本身的編碼無關。因此,對於這種情況做編碼轉換,只需要直接使用encode方法將其轉換成指定編碼即可。
如果一個字符串已經是unicode了,再進行解碼則將出錯,因此通常要對其編碼方式是否為unicode進行判斷:
isinstance(s, unicode) #用來判斷是否為unicode
用非unicode編碼形式的str來encode會報錯
如何獲得系統的默認編碼?
#!/usr/bin/env python
#coding=utf-8
import sys
print sys.getdefaultencoding()
該段程序在英文WindowsXP上輸出為:ascii
我的win7上也輸出ascii。
在某些IDE中,字符串的輸出總是出現亂碼,甚至錯誤,其實是由於IDE的結果輸出控制台自身不能顯示字符串的編碼,而不是程序本身的問題。 (我曾經遇到過一個很無語的問題,就是c++程序控制台輸出總是亂碼,到別人機子上就顯示正常了,原來是我的cmd
設置為美國ascii模式,而不是中文GBK。
)
如在UliPad中運行如下代碼:
s=u"中文"
print s
會提示:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)。這是因為UliPad在英文WindowsXP上的控制台信息輸出窗口是按照ascii編碼輸出的(英文系統的默認編碼是ascii),而上面代碼中的字符串是Unicode編碼的,所以輸出時產生了錯誤。
將最后一句改為:print s.encode('gb2312')
則能正確輸出“中文”兩個字。
若最后一句改為:print s.encode('utf8')
則輸出:\xe4\xb8\xad\xe6\x96\x87,這是控制台信息輸出窗口按照ascii編碼輸出utf8編碼的字符串的結果。
unicode(str,'gb2312')與str.decode('gb2312')是一樣的,都是將gb2312編碼的str轉為unicode編碼
使用str.__class__可以查看str的編碼形式
原理說了半天,最后來個包治百病的吧:)
#!/usr/bin/env python #coding=utf-8 s="中文" if isinstance(s, unicode): #s=u"中文" print s.encode('gb2312') else: #s="中文" print s.decode('utf-8').encode('gb2312')
轉自:http://www.jb51.net/article/17560.htm
----------華麗的分割線-----------------------------------------------------------------------------------------------------------
Python、Unicode和中文(轉)
python的中文問題一直是困擾新手的頭疼問題,這篇文章將給你詳細地講解一下這方面的知識。當然,幾乎可以確定的是,在將來的版本中,python會徹底解決此問題,不用我們這么麻煩了。
先來看看python的版本:
>>> import sys
>>> sys.version
'2.5.1 (r251:54863, Apr 18 2007, 08:51:08) [MSC v.1310 32 bit (Intel)]'
(一)
用記事本創建一個文件ChineseTest.py,默認ANSI:
s = "中文"
print s
測試一下瞧瞧:
E:\Project\Python\Test>python ChineseTest.py
File "ChineseTest.py", line 1
SyntaxError: Non-ASCII character '\xd6' in file ChineseTest.py on line 1, but no encoding declared; see http://www.pytho
n.org/peps/pep-0263.html for details
(注意,上面的這段腳本在python IDLE下面沒有文件,IDLE默認創建的文件都是UTF-8的。輸出也沒用問題,不會亂碼)
偷偷地把文件編碼改成UTF-8:
E:\Project\Python\Test>python ChineseTest.py
File "ChineseTest.py", line 1
SyntaxError: Non-ASCII character '\xe4' in file ChineseTest.py on line 1, but no encoding declared; see http://www.pytho
n.org/peps/pep-0263.html for details
無濟於事。。。
既然它提供了網址,那就看看吧。簡單地瀏覽一下,終於知道如果文件里有非ASCII字符,需要在第一行或第二行指定編碼聲明。把ChineseTest.py文件的編碼重新改為ANSI,並加上編碼聲明:
# coding=gbk
s = "中文"
print s
再試一下:
E:\Project\Python\Test>python ChineseTest.py
中文
正常咯:)
(二)
看一看它的長度:
# coding=gbk
s = "中文"
print len(s)
結果:4。
s這里是str類型,所以計算的時候一個中文相當於兩個英文字符,因此長度為4。
我們這樣寫:
# coding=gbk
s = "中文"
s1 = u"中文"
s2 = unicode(s, "gbk") #省略參數將用python默認的ASCII來解碼
s3 = s.decode("gbk") #把str轉換成unicode是decode,unicode函數作用與之相同
print len(s1)
print len(s2)
print len(s3)
結果:
2
2
2
(三)
接着來看看文件的處理:
建立一個文件test.txt,文件格式用ANSI,內容為:
abc中文
用python來讀取
# coding=gbk
print open("Test.txt").read()
結果:abc中文
把文件格式改成UTF-8:
結果:abc涓枃
顯然,這里需要解碼:
# coding=gbk
import codecs
print open("Test.txt").read().decode("utf-8")
結果:abc中文
上面的test.txt我是用Editplus來編輯的,但當我用Windows自帶的記事本編輯並存成UTF-8格式時,
運行時報錯:
Traceback (most recent call last):
File "ChineseTest.py", line 3, in <module>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence
原來,某些軟件,如notepad,在保存一個以UTF-8編碼的文件時,會在文件開始的地方插入三個不可見的字符(0xEF 0xBB 0xBF,即BOM)。
因此我們在讀取時需要自己去掉這些字符,python中的codecs module定義了這個常量:
# coding=gbk
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
結果:abc中文
(四)一點遺留問題
在第二部分中,我們用unicode函數和decode方法把str轉換成unicode。為什么這兩個函數的參數用"gbk"呢?
第一反應是我們的編碼聲明里用了gbk(# coding=gbk),但真是這樣?
修改一下源文件:
# coding=utf-8
s = "中文"
print unicode(s, "utf-8")
運行,報錯:
Traceback (most recent call last):
File "ChineseTest.py", line 3, in <module>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data
顯然,如果前面正常是因為兩邊都使用了gbk,那么這里我保持了兩邊utf-8一致,也應該正常,不至於報錯。
更進一步的例子,如果我們這里轉換仍然用gbk:
# coding=utf-8
s = "中文"
print unicode(s, "gbk")
結果:中文
翻閱了一篇英文資料,它大致講解了python中的print原理:
When Python executes a print statement, it simply passes the output to the operating system (using fwrite() or something like it), and some other program is responsible for actually displaying that output on the screen. For example, on Windows, it might be the Windows console subsystem that displays the result. Or if you're using Windows and running Python on a Unix box somewhere else, your Windows SSH client is actually responsible for displaying the data. If you are running Python in an xterm on Unix, then xterm and your X server handle the display.
To print data reliably, you must know the encoding that this display program expects.
簡單地說,python中的print直接把字符串傳遞給操作系統,所以你需要把str解碼成與操作系統一致的格式。Windows使用CP936(幾乎與gbk相同),所以這里可以使用gbk。
最后測試:
# coding=utf-8
s = "中文"
print unicode(s, "cp936")
結果:中文
如果以上的還看不明白,再來個對話看看:
[轉自http://hi.baidu.com/zjw0358/blog/item/aab19652b51e00080cf3e3ed.html]
未來(初學者)(41934583) 16:33:58
其次把str轉成unicode不是直接構造,是用str對象的decode方法
Django-venjiang-.Net(69583868) 16:34:03
有漢字必須用u'...'這個嗎?
未來(初學者)(41934583) 16:34:18
不是
未來(初學者)(41934583) 16:34:38
用u構造出來的是unicode類型,不用的話構造出來是str類型
未來(初學者)(41934583) 16:35:54
str的編碼是與系統環境相關的,一般就是sys.getfilesystemencoding()得到的值
Django-venjiang-.Net(69583868) 16:36:12
嗯.明白了.
未來(初學者)(41934583) 16:36:25
unicode你可以不管它是怎么存的,就把它看做是系統能夠識別其中內容的文本類型
未來(初學者)(41934583) 16:37:11
所以從unicode轉str,被看做是把一個信息文本編碼為二進制字節流的過程,要用encode方法
Python 2.X(43602410) 16:37:18
有辦法判斷截取出來的那部分是漢字的前半部分后半部分么?
頭太暈django(2538288) 16:37:31
我一個同事,前些天找了一本python的電子書學習.
未來(初學者)(41934583) 16:37:46
從str轉unicode,看作是從二進制串出解讀出有意義的信息文本,所以要用decode
input=raw_input(u'中文')
#coding=utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8'); print '中文'
python 中文亂碼問題深入分析
一直以來,python中的中文編碼就是一個極為頭大的問題,經常拋出編碼轉換的異常,python中的str和unicode到底是一個什么東西呢?
在本文中,以'哈'來解釋作示例解釋所有的問題,“哈”的各種編碼如下:
1. UNICODE (UTF8-16),C854;
2. UTF-8,E59388;
3. GBK,B9FE。
一、python中的str和unicode
一直以來,python中的中文編碼就是一個極為頭大的問題,經常拋出編碼轉換的異常,python中的str和unicode到底是一個什么東西呢?
在python中提到unicode,一般指的是unicode對象,例如'哈哈'的unicode對象為
u'\u54c8\u54c8'
而str,是一個字節數組,這個字節數組表示的是對unicode對象編碼(可以是utf-8、gbk、cp936、GB2312)后的存儲的格式。這里它僅僅是一個字節流,沒有其它的含義,如果你想使這個字節流顯示的內容有意義,就必須用正確的編碼格式,解碼顯示。
例如:
(utf-8是unicode的一種實現方式)對於unicode對象哈哈進行編碼,編碼成一個utf-8編碼的str-s_utf8,s_utf8就是是一個字節數組,存放的就是'\xe5\x93\x88\xe5\x93\x88',但是這僅僅是一個字節數組,如果你想將它通過print語句輸出成哈哈,那你就失望了,為什么呢?
因為print語句它的實現是將要輸出的內容傳送了操作系統,操作系統會根據系統的編碼對輸入的字節流進行編碼,這就解釋了為什么utf-8格式的字符串“哈哈”,輸出的是“鍝堝搱”,因為 '\xe5\x93\x88\xe5\x93\x88'用GB2312去解釋,其顯示的出來就是“鍝堝搱”。這里再強調一下,str記錄的是字節數組,只是某種編碼的存儲格式,至於輸出到文件或是打印出來是什么格式,完全取決於其解碼的編碼將它解碼成什么樣子。
這里再對print進行一點補充說明:當將一個unicode對象傳給print時,在內部會將該unicode對象進行一次轉換,轉換成本地的默認編碼(這僅是個人猜測)
二、str和unicode對象的轉換
str和unicode對象的轉換,通過encode和decode實現,具體使用如下:
將GBK'哈哈'轉換成unicode,然后再轉換成UTF8
三、Setdefaultencoding
如上圖的演示代碼所示:
當把s(gbk字符串)直接編碼成utf-8的時候,將拋出異常,但是通過調用如下代碼:
import sys
reload(sys)
sys.setdefaultencoding('gbk')
后就可以轉換成功,為什么呢?在python中str和unicode在編碼和解碼過程中,如果將一個str直接編碼成另一種編碼,會先把str解碼成unicode,采用的編碼為默認編碼,一般默認編碼是anscii,所以在上面示例代碼中第一次轉換的時候會出錯,當設定當前默認編碼為'gbk'后,就不會出錯了。
至於reload(sys)是因為Python2.5 初始化后會刪除 sys.setdefaultencoding 這個方法,我們需要重新載入。
四、操作不同文件的編碼格式的文件
建立一個文件test.txt,文件格式用ANSI,內容為:
abc中文
用python來讀取
# coding=gbk
print open("Test.txt").read()
結果:abc中文
把文件格式改成UTF-8:
結果:abc涓枃
顯然,這里需要解碼:
# coding=gbk
import codecs
print open("Test.txt").read().decode("utf-8")
結果:abc中文
上面的test.txt我是用Editplus來編輯的,但當我用Windows自帶的記事本編輯並存成UTF-8格式時,
運行時報錯:
Traceback (most recent call last):
File "ChineseTest.py", line 3, in
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence
原來,某些軟件,如notepad,在保存一個以UTF-8編碼的文件時,會在文件開始的地方插入三個不可見的字符(0xEF 0xBB 0xBF,即BOM)。
因此我們在讀取時需要自己去掉這些字符,python中的codecs module定義了這個常量:
# coding=gbk
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
結果:abc中文
五、文件的編碼格式和編碼聲明的作用
源文件的編碼格式對字符串的聲明有什么作用呢?這個問題困擾一直困擾了我好久,現在終於有點眉目了,文件的編碼格式決定了在該源文件中聲明的字符串的編碼格式,例如:
str = '哈哈'
print repr(str)
a.如果文件格式為utf-8,則str的值為:'\xe5\x93\x88\xe5\x93\x88'(哈哈的utf-8編碼)
b.如果文件格式為gbk,則str的值為:'\xb9\xfe\xb9\xfe'(哈哈的gbk編碼)
在第一節已經說過,python中的字符串,只是一個字節數組,所以當把a情況的str輸出到gbk編碼的控制台時,就將顯示為亂碼:鍝堝搱;而當把b情況下的str輸出utf-8編碼的控制台時,也將顯示亂碼的問題,是什么也沒有,也許'\xb9\xfe\xb9\xfe'用utf-8解碼顯示,就是空白吧。>_<
說完文件格式,現在來談談編碼聲明的作用吧,每個文件在最上面的地方,都會用# coding=gbk 類似的語句聲明一下編碼,但是這個聲明到底有什么用呢?到止前為止,我覺得它的作用也就是三個:
- 聲明源文件中將出現非ascii編碼,通常也就是中文;
- 在高級的IDE中,IDE會將你的文件格式保存成你指定編碼格式。
- 決定源碼中類似於u'哈'這類聲明的將‘哈'解碼成unicode所用的編碼格式,也是一個比較容易讓人迷惑的地方,看示例:
#coding:gbk
ss = u'哈哈'
print repr(ss)
print 'ss:%s' % ss
將這個些代碼保存成一個utf-8文本,運行,你認為會輸出什么呢?大家第一感覺肯定輸出的肯定是:
u'\u54c8\u54c8'
ss:哈哈
但是實際上輸出是:
u'\u935d\u581d\u6431'
ss:鍝堝搱
為什么會這樣,這時候,就是編碼聲明在作怪了,在運行ss = u'哈哈'的時候,整個過程可以分為以下幾步:
1) 獲取'哈哈'的編碼:由文件編碼格式確定,為'\xe5\x93\x88\xe5\x93\x88'(哈哈的utf-8編碼形式)
2) 轉成 unicode編碼的時候,在這個轉換的過程中,對於'\xe5\x93\x88\xe5\x93\x88'的解碼,不是用utf-8解碼,而是用聲明編碼處指定的編碼GBK,將'\xe5\x93\x88\xe5\x93\x88'按GBK解碼,得到就是''鍝堝搱'',這三個字的unicode編碼就是u'\u935d\u581d\u6431',至止可以解釋為什么print repr(ss)輸出的是u'\u935d\u581d\u6431' 了。
好了,這里有點繞,我們來分析下一個示例:
#-*- coding:utf-8 -*-
ss = u'哈哈'
print repr(ss)
print 'ss:%s' % ss
將這個示例這次保存成GBK編碼形式,運行結果,竟然是:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb9 in position 0: unexpected code byte
這里為什么會有utf8解碼錯誤呢?想想上個示例也明白了,轉換第一步,因為文件編碼是GBK,得到的是'哈哈'編碼是GBK的編碼'\xb9\xfe\xb9\xfe',當進行第二步,轉換成 unicode的時候,會用UTF8對'\xb9\xfe\xb9\xfe'進行解碼,而大家查utf-8的編碼表會發現,utf8編碼表(關於UTF- 8解釋可參見字符編碼筆記:ASCII、UTF-8、UNICODE)中根本不存在,所以會報上述錯誤。
http://happylaoyu.blog.sohu.com/111505796.html