Python字符編碼轉碼之GBK,UTF8互轉

本文轉載自查看原文 2020-07-13 18:51 7307 python

一、Python字符編碼介紹

1、須知：

在python 2中默認編碼是 ASCII，而在python 3中默認編碼是 unicode

unicode 分為utf-32 (占4個字節),utf-16(占兩個字節)，utf-8(占1-4個字節)，所以utf-16 是最常用的unicode版本，但是在文件里存的還是utf-8，因為utf8省空間

在python 3,encode編碼的同時會把stringl變成bytes類型，decode解碼的同時會把bytes類型變成string類型

在unicode編碼中 1個中文字符=2個字節，1個英文字符 = 1個字節，切記：ASCII是不能存中文字符的

utf-8是可變長字符編碼,它是unicode的優化，所有的英文字符依然按ASCII形式存儲，所有的中文字符統一是3個字節

unicode包含了所有國家的字符編碼，不同字符編碼之間的轉換都需要經過unicode的過程

python本身的默認編碼是utf-8

2、py2中的編碼和轉碼的過程，如圖：

注：因為unicode是中間編碼，任何字符編碼之前的轉換都必須解碼成unicode，在編碼成需要轉的字符編碼

二、字符編碼的轉換

1、py2字符編碼的轉換，代碼如下：

 
                 #! /usr/bin/env python 
                
                 # -*- coding:utf-8 -*- 
                
                 # __auther__ == luoahong 
                
                 s  
                 = 
                 "我是學員" 
                
                 #utf-8解碼成unicode編碼 
                
                 s_to_unicode  
                 = 
                 s.decode( 
                 "utf-8" 
                 ) 
                
                 print 
                 ( 
                 "--------s_to_unicode-----" 
                 ) 
                
                 print 
                 (s_to_unicode) 
                
                 #然后unicode再編碼成gbk 
                
                 s_to_gbk  
                 = 
                 s_to_unicode.encode( 
                 "gbk" 
                 ) 
                
                 print 
                 ( 
                 "-----s_to_gbk------" 
                 ) 
                
                 print 
                 (s_to_gbk) 
                
                 #gbk解碼成unicode再編碼成utf-8 
                
                 gbk_to_utf8  
                 = 
                 s_to_gbk.decode( 
                 "gbk" 
                 ).encode( 
                 "utf-8" 
                 ) 
                
                 print 
                 ( 
                 "------gbk_to_utf8-----" 
                 ) 
                
                 print 
                 (gbk_to_utf8) 
                
                 #輸出 
                
                 - 
                 - 
                 - 
                 - 
                 - 
                 - 
                 - 
                 - 
                 s_to_unicode 
                 - 
                 - 
                 - 
                 - 
                 - 
                
                 我是學員 
                
                 - 
                 - 
                 - 
                 - 
                 - 
                 s_to_gbk 
                 - 
                 - 
                 - 
                 - 
                 - 
                 - 
                
                 �����˧ 
                
                 - 
                 - 
                 - 
                 - 
                 - 
                 - 
                 gbk_to_utf8 
                 - 
                 - 
                 - 
                 - 
                 - 
                
                 我是學員

注：以上這種情況適合字符是非unicode編碼請款下，但是如果字符編碼已經是Unicode的了咋辦呢？廣告回來，更加精彩。。。。。

2、字符編碼已經是unicode情況下，代碼如下：

 
                 #! /usr/bin/env python 
                
                 # -*- coding:utf-8 -*- 
                
                 # __auther__ == luoahong 
                
                 #u代碼字符編碼是unicode 
                
                 s  
                 = 
                 u 
                 '你好' 
                
                 #已經是unicode，所以這邊直接是編碼成gbk 
                
                 s_to_gbk  
                 = 
                 s.encode( 
                 "gbk" 
                 ) 
                
                 print 
                 ( 
                 "----s_to_gbk----" 
                 ) 
                
                 print 
                 (s_to_gbk) 
                
                 #這邊再解碼成unicode然后再編碼成utf-8 
                
                 gbk_to_utf8  
                 = 
                 s_to_gbk.decode( 
                 "gbk" 
                 ).encode( 
                 "utf-8" 
                 ) 
                
                 print 
                 ( 
                 "-----gbk_to_utf8---" 
                 ) 
                
                 print 
                 (gbk_to_utf8) 
                
                 #輸出 
                
                 - 
                 - 
                 - 
                 - 
                 s_to_gbk 
                 - 
                 - 
                 - 
                 - 
                
                 ��� 
                
                 - 
                 - 
                 - 
                 - 
                 - 
                 gbk_to_utf8 
                 - 
                 - 
                 - 
                
                 你好

注：在python2中，在文件的開頭指定字符編碼，是要告訴解釋器我現在的字符編碼使用的是utf-8，那我在打印的中文時候，那么在utf-8中包含中文字符，那么可以打印出來。那么如果你不制定字符編碼，默認使用系統編碼，如果你的系統編碼是ASCII，那么就會報錯，因為ASCII不能存中文字符。

3、py3的字符編碼轉換

在須知中已經說到python 3的編碼，默認是unicode，所以字符編碼之間的轉換不需要decode過程，直接encode即可，代碼如下：

 
                 #! /usr/bin/env python 
                
                 # __auther__ == luoahong 
                
                 #無需聲明字符編碼，當然你聲明也不會報錯 
                
                 s  
                 = 
                 '你好' 
                
                 # 字符串s已經是unicode編碼，無需decode,直接encode 
                
                 s_to_gbk  
                 = 
                 s.encode( 
                 "gbk" 
                 ) 
                
                 print 
                 ( 
                 "----s_to_gbk----" 
                 ) 
                
                 print 
                 (s_to_gbk) 
                
                 #這邊還是一樣，gbk需要先解碼成unicode，再編碼成utf-8 
                
                 gbk_to_utf8  
                 = 
                 s_to_gbk.decode( 
                 "gbk" 
                 ).encode( 
                 "utf-8" 
                 ) 
                
                 print 
                 ( 
                 "-----gbk_to_utf8---" 
                 ) 
                
                 print 
                 (gbk_to_utf8) 
                
                 #解碼成unicode字符編碼 
                
                 utf8_decode  
                 = 
                 gbk_to_utf8.decode( 
                 "utf-8" 
                 ) 
                
                 print 
                 ( 
                 "-------utf8_decode----" 
                 ) 
                
                 print 
                 (utf8_decode) 
                
                 #輸出 
                
                 - 
                 - 
                 - 
                 - 
                 s_to_gbk 
                 - 
                 - 
                 - 
                 - 
                
                 b 
                 '\xc4\xe3\xba\xc3' 
                
                 - 
                 - 
                 - 
                 - 
                 - 
                 gbk_to_utf8 
                 - 
                 - 
                 - 
                
                 b 
                 '\xe4\xbd\xa0\xe5\xa5\xbd' 
                
                 - 
                 - 
                 - 
                 - 
                 - 
                 - 
                 - 
                 utf8_decode 
                 - 
                 - 
                 - 
                 - 
                
                 你好

注：在python 3,encode編碼的同時會把stringl變成bytes類型，decode解碼的同時會把bytes類型變成string類型，所以你就不難看出encode后的把它變成了一個bytes類型的數據。還有需要特別注意的是：不管是否在python 3的文件開頭申明字符編碼，只能表示，這個python文件是這個字符編碼，文件中的字符串還是unicode，如下圖：

三、總結：

1、uniocode能識別所有字符編碼的字符串

2、在python 2中，字符編碼之間的轉化需要通過unicode才能轉換，所以打印時，可以是使用unicode，也可以使用對應的字符編碼(文件開頭指定編碼)，打印字符或者字符串，因為py2中沒有對字符和字節做明顯區分，所以才混導致這樣的結果。

3、在python 3中，只有通過Unicode去識別字符的，如果轉成編碼成對應編碼格式了，就直接變成對應編碼的bytes類型的字節碼，也就是二進制，需要識別，必須解碼成Unicode才能識別

更多關於Python字符編碼轉碼問題請查看下面的相關鏈接

轉發鏈接：https://www.jb51.net/article/179894.htm

原文鏈接：https://www.cnblogs.com/luoahong/p/7159852.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 字符編碼之間的相互轉換 UTF8與GBK GBK 和 UTF8編碼 Golang中GBK和UTF8編碼格式互轉 Python 對目錄中的文件進行批量轉碼（GBK>UTF8）字符串轉碼UTF8轉碼為GBK的C語言程序源代碼 VC++互相轉碼GBK，unicode，utf8 C# winForm utf8 gbk 相互轉碼小工具 python中unicode、utf8、gbk等編碼問題 python中unicode、utf8、gbk等編碼問題 python中unicode、utf8、gbk等編碼問題