幾種常見編碼方式


在學習Python過程中接觸到字符串類型str和bytes在bytes類型。計算機所有程序的計算都是用的str類型而在存儲磁盤和網絡傳輸中用的是bytes類型。

>>> s=s.encode("gbk")

>>> type(s)

<class 'bytes'>

電腦音痴的我百度了一下。

encode 用於編碼,decode 用於解碼。

原來"gbk"是一種編碼形式。好吧。繼續百度。有了初步的認識。

ASCII碼:用來表示英文,它使用一個字節表示具體字符,其中第一位規定為0,其他7位存儲數據,(2^7)一共可以表示128個字符。

擴展的ASCII碼:由於歐洲國家的語言會有拼音存在所以用7位已經不能滿足了所以一些歐洲國家決定利用閑置的最高位來表達更多的字符(2^8)所以有256個字符。

不過即使編碼相同但是表示的字符也不同。

Unicode:簡單來說是一個字符集。包含世界上所有字符。得益於互聯網的發展。

GBK和GB2312,GB18030:GBK和GB2312都是簡體中文編碼。GB2312支持6千多漢字編碼,GBK支持1萬多漢字編碼。GB18030是繁體中文編碼。

UTF-8:UF-8是Unicode的實現方式之一,是互聯網使用最為廣泛的編碼。用1-4個字節表示符號。根據不同字節長度變化不同符號。

繼續...

 

ASCIIS碼: 1個英文字母(不分大小寫)= 1個字節的空間     1個中文漢字 = 2個字節的空間    1個ASCII碼 = 一個字節

Unicode編碼:1個英文字符 = 2個字節    英文標點 = 2個字節    1個中文(含繁體) = 2個字節    中文標點 = 2個字節

UTF-8編碼:1個英文字符 = 1個字節    英文標點 = 1個字節    1個中文(含繁體) = 3個字節    中文標點 = 3個字節

 

繼續補充中...

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM