python中的編碼與解碼

本文轉載自查看原文 2015-05-14 21:49 36762 coding/ Python

編碼與解碼

首先，明確一點，計算機中存儲的信息都是二進制的

編碼/解碼本質上是一種映射（對應關系），比如‘a’用ascii編碼則是65，計算機中存儲的就是00110101，但是顯示的時候不能顯示 00110101，還是要顯示'a'，但計算機怎么知道 00110101是'a'呢，這就需要解碼，當選擇用ascii解碼時，當計算機讀到 00110101時就到對應的ascii表里一查發現是'a'，就顯示為'a'

編碼：真實字符與二進制串的對應關系，真實字符→二進制串

解碼：二進制串與真實字符的對應關系，二進制串→真實字符

ASCII & UTF-8

大家熟知的ASCII以1字節8個bit位表示一個字符，首位全是0，表示的字符集明顯不夠

unicode編碼系統是為表達任意語言而設計的，為了防止存儲上的冗余（比如，對應ascii碼的部分），其采用了變長編碼，但變長編碼給解碼帶來了困難，無法判斷是幾個字節表示一個字符

UTF-8是針對unicode變長編碼設計的一種前綴嗎，根據前綴可判斷是幾個字節表示一個字符

如果一個字節的第一位是0，則這個字節單獨就是一個字符；如果第一位是1，則連續有多少個1，就表示當前字符占用多少個字節。

比如"嚴"的unicode是4E25（100111000100101），4E25處在第三行的范圍內（0000 0800-0000 FFFF），因此"嚴"的UTF-8編碼需要三個字節，即格式是"1110xxxx 10xxxxxx 10xxxxxx"。然后，從"嚴"的最后一個二進制位開始，依次從后向前填入格式中的x，高位補0，得到"嚴"的UTF-8編碼是"11100100 10111000 10100101"。

python中的解碼和編碼

在python中，編碼解碼其實是不同編碼系統間的轉換，默認情況下，轉換目標是Unicode，即編碼unicode→str，解碼str→unicode，其中str指的是字節流

而str.decode是將字節流str按給定的解碼方式解碼，並轉換成utf-8形式，u.encode是將unicode類按給定的編碼方式轉換成字節流str

注意調用encode方法的是unicode對象生成的是字節流，調用decode方法的是str對象（字節流）生成的是unicode對象，若str對象調用encode會默認先按系統默認編碼方式decode成unicode對象再encode，忽視了中間默認的decode往往導致報錯

自己寫代碼時只需記住str字節流調用decode，unicode對象調用

第一行定義了一個unicode對象（不是utf8）

第二行會輸出u'\u4e25'

第三行輸出<type 'unicode'> 嚴

倘若這時我用s.encode('utf8')，則將s使用utf-8編碼並將編碼結果保存為字節流

第二行輸出'\xe4\xb8\xa5'

第三行輸出 <type 'str'> 涓

還有要注意的是，終端默認的編碼格式是gbk， windows cmd中可以通過chcp查看以及改變，也可以到注冊表修改終端默認編碼（ HKEY_CURRENT_USER console或者powershell下的codepage），936為簡體中文，65001為utf8，兩者都可顯示中文，但為了方便中文輸入，我將其默認設為936

當調用print函數將內容格式化輸出到終端時，會將unicode對象轉換為終端的編碼方式輸出，如上面第一次print的結果是正常的，print utf8字節流時，終端按其默認gbk解碼顯示時就會出問題，這里恰巧'\xe4\xb8'為gbk下的“涓”

第二行會輸出 u'\u4e25'

文件的編碼格式

保存文本時也有編碼格式，比如txt文件保存可選擇則ASCII、utf8等，對py文件可在 前兩行注明編碼方式# -*- coding: UTF-8 -*-

在python中讀取文件

 
                fr  
                = 
                open 
                ( 
                'encode.py' 
                , 
                'r' 
                ) 
               
                fstr  
                = 
                fr.read()

只要記住fstr 是字節流，其他的操作參看上面即可

注：以上操作均在cmd或powershell下完成，在python自帶的解釋器下會有問題，s=u'你好'，然后s，顯示的雖然是unicode對象，但是編碼卻是gbk的而不是unicode

參考

字符編碼簡介 http://blog.csdn.net/trochiluses/article/details/8782019
chcp http://baike.baidu.com/link?url=_qaJTLxmRJoD5pPV8ykh7om7uHqtuCquD5wqAwfrTmCMg3Ii3F3s7r11xD6rqf6ZkzH_ljz-1DwzEXyXEi2_lq
python字符編碼與解碼 http://blog.csdn.net/trochiluses/article/details/16825269

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 中的編碼解碼 Python中的編碼與解碼(轉) python3中的編碼與解碼原理 python3中編碼和解碼 Python中的編碼和解碼問題 python中對url編碼解碼處理 python中base64編碼與解碼 Python 中 base64 編碼與解碼 python編碼：gbk編碼與解碼 python編碼與解碼