Python2和3字符編碼的區別


一、字符編碼應用之Python

1.1 執行Python程序的三個階段

Python test.py(我再強調一遍,執行test.py的第一步,一定是先將文件內容從硬盤讀入到內存中)

test.py文件內容以gbk格式保存的,內容為:

047-Python2與3字符編碼的區別-代碼編寫.png?x-oss-process=style/watermark

  • 階段一:啟動Python解釋器
  • 階段二:Python解釋器此時就是一個文本編輯器,負責打開文件test.py,即從硬盤中讀取test.py的內容到內存中

此時,Python解釋器會讀取test.py的第一行內容,#coding:utf-8#-*-coding:utf-8-*-,以此決定以什么編碼格式將代碼讀入內存,這一行就是設定Python解釋器這個軟件使用的編碼格式。

可以用sys.getdefaultencoding()查看,如果不在Python文件指定頭信息#-*-coding:utf-8-*-,那就使用Python默認的編碼格式。

import sys

sys.getdefaultencoding()
'utf-8'

Python2中默認使用ascii,Python3中默認使用utf-8。

047-Python2與3字符編碼的區別-語法報錯.png?x-oss-process=style/watermark

改正:在test.py指定文件頭,字符編碼一定要為gbk。即更正為

#coding:gbk
你好啊

047-Python2與3字符編碼的區別-修正.png?x-oss-process=style/watermark

  • 階段三:讀取已經加載到內存的代碼(Unicode編碼格式),然后執行,執行過程中可能會開辟新的內存空間,比如name="nick"

內存的編碼使用Unicode,不代表內存中全都是Unicode,因為在程序執行之前,內存中確實都是Unicode,比如從文件中讀取了一行name="nick",其中的name、等號、引號的地位都一樣,都是普通字符而已,都是以Unicode的格式存放於內存中的。

但是程序在執行過程中,會申請內存(與程序代碼所存在的內存是倆個空間)用來存放Python的數據類型的值,而Python的字符串類型又涉及到了字符的概念。

比如name="nick",會被Python解釋器識別為字符串,會申請內存空間來存放字符串類型的值,至於該字符串類型的值被識別成何種編碼存放,這就與Python解釋器的有關了,而Python2與Python3的字符串類型又有所不同。

二、Python2與Python3字符串類型的區別

2.1 Python2

在Python2中有兩種字符串類型str和Unicode。

2.1.1 str類型

當Python解釋器執行到產生字符串的代碼時(例如x='上'),會申請新的內存地址,然后將'上'編碼成文件開頭指定的編碼格式

因為直接print()會自動轉換編碼,我們使用encode()方法查看'上'的字符編碼。

# 三、Python2中代碼

# 四、coding:gbk

x = '上'
y = '下'
print([x, y])  # ['\xc9\xcf', '\xcf\xc2']
# 五、\x代表16進制,此處是c9cf總共4位16進制數,一個16進制四4個比特位,4個16進制數則是16個比特位,即2個Bytes,這就證明了按照gbk編碼中文用2Bytes

print(type(x),type(y))  # (<type 'str'>, <type 'str'>)

理解字符編碼的關鍵!!!

內存中的數據通常用16進制表示,2位16進制數據代表一個字節,如\xc9,代表兩位16進制,一個字節

gbk存中文需要2個bytes,而存英文則需要1個bytes,它是如何做到的???!!!

gbk會在每個bytes,即8位bit的第一個位作為標志位,標志位為1則表示是中文字符,如果標志位為0則表示為英文字符。

x='你a好'
轉成gbk格式二進制位:8bit+8bit+8bit+8bit+8bit=(1+7bit)+(1+7bit)+(0+7bit)+(1+7bit)+(1+7bit)

這樣計算機按照從左往右的順序讀:

  1. 連續讀到前兩個括號內的首位標志位均為1,則構成一個中午字符:你
  2. 讀到第三個括號的首位標志為0,則該8bit代表一個英文字符:a
  3. 連續讀到后兩個括號內的首位標志位均為1,則構成一個中午字符:好

也就是說,每個Bytes留給我們用來存真正值的有效位數只有7位,而在Unicode表中存放的只是這有效的7位,至於首位的標志位與具體的編碼有關,即在Unicode中表示gbk的方式為:(7bit)+(7bit)+(7bit)+(7bit)+(7bit)

047-Python2與3字符編碼的區別-gbk上.png?x-oss-process=style/watermark

按照上圖翻譯的結果,我們可以去Unicode關於漢字的對應關系中去查:鏈接:https://pan.baidu.com/s/1dEV3RYp

可以看到“上”對應的gbk(G0代表的是gbk)編碼就為494F,即我們得出的結果,而上對應的Unicode編碼為4E0A,我們可以將gbk-->decode-->Unicode。

047-Python2與3字符編碼的區別-Unicode上.png?x-oss-process=style/watermark

# 六、Python2中代碼

# 七、coding:gbk

x = '上'.decode('gbk')
y = '下'.decode('gbk')
print([x, y])  # [u'\u4e0a', u'\u4e0b']

7.0.2 Unicode類型

當Python解釋器執行到產生字符串的代碼時(例如s=u'林'),會申請新的內存地址,然后將'林'以Unicode的格式存放到新的內存空間中,所以s只能encode,不能decode。

# 八、Python2中代碼

# 九、coding:gbk

x = u'上'  # 等同於 x='上'.decode('gbk')
y = u'下'  # 等同於 y='下'.decode('gbk')
print([x, y])  # [u'\u4e0a', u'\u4e0b']
print(type(x),type(y))  # (<type 'Unicode'>, <type 'Unicode'>)

對於print需要特別說明的是:當程序執行時,比如x='上' # gbk下,字符串存放為\xc9\xcf

print(x)這一步是將x指向的那塊新的內存空間(非代碼所在的內存空間)中的內存,打印到終端,按理說應該是存的什么就打印什么,但打印\xc9\xcf,對一些不熟知Python編碼的程序員,立馬就懵逼了,所以龜叔自作主張,在print(x)時,使用終端的編碼格式,將內存中的\xc9\xcf轉成字符顯示,此時就需要終端編碼必須為gbk,否則無法正常顯示原內容:上。

047-Python2與3字符編碼的區別上1.png?x-oss-process=style/watermark

047-Python2與3字符編碼的區別-上2.png?x-oss-process=style/watermark

對於Unicode格式的數據來說,無論怎么打印,都不會亂碼

047-Python2與3字符編碼的區別-上3.png?x-oss-process=style/watermark

047-Python2與3字符編碼的區別-上4.png?x-oss-process=style/watermark

Unicode這么好,不會亂碼,那Python2為何還那么別扭,搞一個str出來呢?Python誕生之時,Unicode並未像今天這樣普及,很明顯,好的東西你能看得見,龜叔早就看見了,龜叔在Python3中將str直接存成Unicode,我們定義一個str,無需是否加u前綴,就是一個Unicode,屌不屌?

9.1 Python3

Python3中str都是Unicode編碼的,所以Python3中的str類型的數據可以編碼成其他字符編碼的格式,編碼的結果為bytes類型。

# coding:gbk
x = '上'  # 當程序執行時,無需加u,'上'也會被以Unicode形式保存新的內存空間中,

print(f"type(x): {type(x)}")  # <class 'str'>

# x可以直接encode成任意編碼格式
print(f"x.encode('gbk'): {x.encode('gbk')}")  # b'\xc9\xcf'
print(f"type(x.encode('gbk')): {type(x.encode('gbk'))}")  # <class 'bytes'>
type(x): <class 'str'>
x.encode('gbk'): b'\xc9\xcf'
type(x.encode('gbk')): <class 'bytes'>

很重要的一點是:看到Python3中x.encode('gbk') 的結果\xc9\xcf正是Python2中的str類型的值,而在Python3是bytes類型,在Python2中則是str類型。

總而言之

代碼詳情 Python2執行情況 Python3執行情況
# coding:gbk
print('中')
終端:utf8
亂碼 不亂碼
# coding:utf8
print('中')
終端:utf8
不亂碼 不亂碼
# coding:gbk
print(u'中')
終端:utf8
不亂碼 不亂碼
# coding:utf8
print(u'中')
終端:utf8
不亂碼 不亂碼

在Python2中如果指定了字符編碼,那么內存存取就會按照指定的字符編碼去入內存。解釋或去執行時就要按照指定了的字符編碼去解釋,否則就會亂碼。 否則可以在定義變量前面加上u,這樣變量就會以unicode編碼存入內存。

如:

#coding:gbk

name = "爸爸"

但在Python3中就不會有這樣的問題,因為無論你指定了什么字符編碼,在內存存取時都會使用Unicode編碼去入內存,Unicode編碼可以和任意的字符編碼相互轉換,並在讀取時按照所需的編碼區讀取,這樣就很好解決了字符編碼的問題


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM