在linux中獲取系統編碼結果:
Windows系統的編碼,代碼頁936表示GBK編碼
可以看到linux系統默認使用UTF-8編碼,windows默認使用GBK編碼。Linux環境下,文件默認使用UTF-8編碼。當然你也可以指定文件編碼方式。
這個時候需要告訴python解釋器用utf-8去解讀python源文件
Python解釋器內部默認使用的ASCII編碼方式去解讀python源文件
Python字符編碼
Python2中有兩類字符串,分別是str與unicode。這兩類字符串都派生自抽象類basestring。
Str即普通字符串類型
在字符串前加上u即unicode編碼
在代碼中通常用到的是unicode,文件保存的是utf-8編碼。Unicode編碼是固定2個字節代表一個字符。Utf-8是對英文只用一個字節,對中文是3個字節。所以unicode運行效率高,utf-8運行效率相比要低,但是空間存儲要小。
GBK->Unicode
GBK->Unicode->UTF-8
Python中UTF-8與unicode轉換
Unicode轉UTF-8
UTF-8轉Unicode
1種使用unicode函數
其函數中參數UTF-8是,以utf-8編碼對unicode對象解碼,或編碼。
1種使用decode函數轉換