python 模塊codecs
python對多國語言的處理是支持的很好的,它可以處理現在任意編碼的字符,這里深入的研究一下python對多種不同語言的處理。
有一點需要清楚的是,當python要做編碼轉換的時候,會借助於內部的編碼,轉換過程是這樣的:
原有編碼 -> 內部編碼 -> 目的編碼
python的內部是使用unicode來處理的,但是unicode的使用需要考慮的是它的編碼格式有兩種,一是UCS-2,它一共有65536個碼 位,另一種是UCS-4,它有2147483648g個碼位。對於這兩種格式,python都是支持的,這個是在編譯時通過--enable- unicode=ucs2或--enable-unicode=ucs4來指定的。那么我們自己默認安裝的python有的什么編碼怎么來確定呢?有一個 辦法,就是通過sys.maxunicode的值來判斷:


如果輸出的值為65535,那么就是UCS-2,如果輸出是1114111就是UCS-4編碼。
我們要認識到一點:當一個字符串轉換為內部編碼后,它就不是str類型了!它是unicode類型:




輸出:
<type 'str'>
<type 'unicode'>
這個時候b可以方便的任意轉換為其他編碼,比如轉換為utf-8:


c輸出的東西看起來是亂碼,那就對了,因為是utf-8的字符串。
好了,該說說codecs模塊了,它和我上面說的概念是密切相關的。codecs專門用作編碼轉換,當然,其實通過它的接口是可以擴展到其他關於代碼方面 的轉換的,這個東西這里不涉及。
import codecs, sys
print ' - ' * 60
# 創建gb2312編碼器
look = codecs.lookup( " gb2312 " )
# 創建utf-8編碼器
look2 = codecs.lookup( " utf-8 " )
a = " 我愛北京 "
print len(a), a
# 把a編碼為內部的unicode, 但為什么方法名為decode呢,我 的理解是把gb2312的字符串解碼為unicode
b = look.decode(a)
# 返回的b[0]是數據,b[1]是長度,這個時候的類型是unicode 了
print b[ 1 ], b[0], type(b[0])
# 把內部編碼的unicode轉換為gb2312編碼的字符 串,encode方法會返回一個字符串類型
b2 = look.encode(b[0])
# 發現不一樣的地方了吧?轉換回來之后,字符串長度由14變為了7! 現在 的返回的長度才是真正的字數,原來的是字節數
print b2[ 1 ], b2[0], type(b2[0])
# 雖然上面返回了字數,但並不意味着用len求b2[0]的長度就是7了, 仍然還是14,僅僅是codecs.encode會統計字數
print len(b2[0])
上面的代碼就是codecs的使用,是最常見的用法。另外還有一個問題就是,如果我們處理的文件里的字符編碼是其他類型的呢?這個讀取進行做處理也需要特 殊的處理的。codecs也提供了方法.











上面這個處理big5的,可以去找段big5編碼的文件試試。
------------------------------------------------------------------------------------------------------------------------------------------------------
>>> import codecs
>>> t = codecs.lookup("utf-8" )
>>> print t
(<built-in function utf_8_encode>, <function decode at 0x00AA25B0>, <class encodings.utf_8.StreamReader at 0x00AA0720>, <class encodings.utf_8.StreamWriter at 0x00AA06F0>)
>>> encoder = t[0]
>>> decoder = t[1]
>>> StreamReader = t[2]
>>> StreamWriter = t[3]
- getencoder(encoding)
- getdecoder(encoding)
- getreader(encoding)
- getwriter(encoding)
>>> encoder = codecs.getencoder("utf-8" )
>>> fin = codecs.open("e://mycomputer.txt" , "r" , "utf-8" )
>>> print fin.readline()
這是我的電腦
>>> fin.close()