python模塊之codecs


python 模塊codecs

python對多國語言的處理是支持的很好的,它可以處理現在任意編碼的字符,這里深入的研究一下python對多種不同語言的處理。
有一點需要清楚的是,當python要做編碼轉換的時候,會借助於內部的編碼,轉換過程是這樣的:
        原有編碼 -> 內部編碼 -> 目的編碼 
    python的內部是使用unicode來處理的,但是unicode的使用需要考慮的是它的編碼格式有兩種,一是UCS-2,它一共有65536個碼 位,另一種是UCS-4,它有2147483648g個碼位。對於這兩種格式,python都是支持的,這個是在編譯時通過--enable- unicode=ucs2或--enable-unicode=ucs4來指定的。那么我們自己默認安裝的python有的什么編碼怎么來確定呢?有一個 辦法,就是通過sys.maxunicode的值來判斷:

import  sys
print  sys.maxunicode


     如果輸出的值為65535,那么就是UCS-2,如果輸出是1114111就是UCS-4編碼。
我們要認識到一點:當一個字符串轉換為內部編碼后,它就不是str類型了!它是unicode類型:

 a  =   " 中文 " 
 print  type(a)
 b  =  a.unicode(a,  " gb2312 " )
 print  type(b)


輸出:
<type 'str'>
<type 'unicode'>

這個時候b可以方便的任意轉換為其他編碼,比如轉換為utf-8:

c  =  b.encode( " utf-8 " )
print  c


c輸出的東西看起來是亂碼,那就對了,因為是utf-8的字符串。
  好了,該說說codecs模塊了,它和我上面說的概念是密切相關的。codecs專門用作編碼轉換,當然,其實通過它的接口是可以擴展到其他關於代碼方面 的轉換的,這個東西這里不涉及。

# -*- encoding: gb2312 -*- 
import  codecs, sys

print   ' - ' * 60 
#  創建gb2312編碼器 
look   =  codecs.lookup( " gb2312 " )
#  創建utf-8編碼器 
look2  =  codecs.lookup( " utf-8 " )

a  =   " 我愛北京 " 

print  len(a), a
#  把a編碼為內部的unicode, 但為什么方法名為decode呢,我 的理解是把gb2312的字符串解碼為unicode 
b  =  look.decode(a)
#  返回的b[0]是數據,b[1]是長度,這個時候的類型是unicode 了 
print  b[ 1 ], b[0], type(b[0])
#  把內部編碼的unicode轉換為gb2312編碼的字符 串,encode方法會返回一個字符串類型 
b2  =  look.encode(b[0])
#  發現不一樣的地方了吧?轉換回來之后,字符串長度由14變為了7! 現在 的返回的長度才是真正的字數,原來的是字節數 
print  b2[ 1 ], b2[0], type(b2[0])
#  雖然上面返回了字數,但並不意味着用len求b2[0]的長度就是7了, 仍然還是14,僅僅是codecs.encode會統計字數 
print  len(b2[0])


    上面的代碼就是codecs的使用,是最常見的用法。另外還有一個問題就是,如果我們處理的文件里的字符編碼是其他類型的呢?這個讀取進行做處理也需要特 殊的處理的。codecs也提供了方法.

# -*- encoding: gb2312 -*- 
 import  codecs, sys

 #  用codecs提供的open方法來指定打開的文件的語言編碼,它會在讀 取的時候自動轉換為內部unicode 
 bfile  =  codecs.open( " dddd.txt " ,  ' r ' ,  " big5 " )
 # bfile = open("dddd.txt", 'r') 
 
 ss  =  bfile.read()
 bfile.close()
 #  輸出,這個時候看到的就是轉換后的結果。如果使用語言內建的open函數 來打開文件,這里看到的必定是亂碼 
 print  ss, type(ss)


上面這個處理big5的,可以去找段big5編碼的文件試試。

 

------------------------------------------------------------------------------------------------------------------------------------------------------

 

字符的編碼是按照某種規則在單字節字符和多字節字符之間進行轉換的某種方法。從單字節到多字節叫做decoding,從多字節到單字節叫做 encoding。在這些規則中經常用到的無非是UTF-8和GB2312兩種。
 
在Python中,codecs模塊提供了實現這些規則的方法,通過模塊公開的方法我們能夠方便地獲取某種編碼方式的Encoder和 Decoder工廠函數(Factory function),以及StreamReader、StreamWriter和StreamReaderWriter類。
 
使用“import codecs”導入codecs模塊。
 
codecs模塊中重要的函數之一是lookup,它只有一個參數encoding,指的是編碼方式的名稱,即utf-8或者gb2312等 等。如下示例:

>>> import codecs
>>> t = codecs.lookup("utf-8" )
>>> print t
(<built-in function utf_8_encode>, <function decode at 0x00AA25B0>, <class encodings.utf_8.StreamReader at 0x00AA0720>, <class encodings.utf_8.StreamWriter at 0x00AA06F0>) 
>>> encoder = t[0]
>>> decoder = t[1]
>>> StreamReader = t[2]
>>> StreamWriter = t[3]

lookup函數返回一個包含四個元素的TUPLE,其中t[0]是encoder的函數引用,t[1]是decoder的函數引用,t[2] 是UTF-8編碼方式的StreamReader類對象引用,t[3]是UTF-8編碼方式的StreamWriter類對象引用相信對Python熟悉 的你肯定知道接下來該怎么用它們了。
 
codecs模塊還提供了方便程序員使用的單獨函數,以簡化對lookup的調用。它們是:
  • getencoder(encoding)
  • getdecoder(encoding)
  • getreader(encoding)
  • getwriter(encoding)
如果我們只是想獲取一種utf-8編碼的encoder方法,那么只需要這樣做:

>>> encoder = codecs.getencoder("utf-8" )

 
另外,對於StreamReader和StreamWriter的簡化, codecs模塊提供一個open方法。相對於built-in對象File的open方法,前者多了三個參數encoding, errors, buffering。這三個參數都是可選參數,但是對於應用來說,需要明確指定encoding的值,而errors和buffering使用默認值即 可。使用方法如下:

>>> fin = codecs.open("e://mycomputer.txt" , "r" , "utf-8" )
>>> print fin.readline()
這是我的電腦 
>>> fin.close()

 
總結一下,codecs模塊為我們解決的字符編碼的處理提供了lookup方法,它接受一個字符編碼名稱的參數,並返回指定字符編碼對應的 encoder、decoder、StreamReader和StreamWriter的函數對象和類對象的引用。為了簡化對lookup方法的調用, codecs還提供了getencoder(encoding)、getdecoder(encoding)、getreader(encoding)和 getwriter(encoding)方法;進一步,簡化對特定字符編碼的StreamReader、StreamWriter和 StreamReaderWriter的訪問,codecs更直接地提供了open方法,通過encoding參數傳遞字符編碼名稱,即可獲得對 encoder和decoder的雙向服務。
 
轉自:http://blog.csdn.net/suofiya2008/article/details/5579413


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM