Unicode字符需要幾個字節來存儲?


0)學習筆記:

我們常說的這句話“Unicode字符是2個字節”這句話有毛病

Unicode目前規划的總空間有17個平面, 0x0000---0x10FFFF,每個平面有 65536 個碼點.

 

Unicode支持的字符上限是65536個 這句話也是有問題的,這65536個字符是我們最常用的基本字符,但是還有很多字符是在0x0000--0xFFFF之外的

unicode存儲在計算機內存里肯定是需要編碼的,那么就有UTF-8,UTF-16,UTF-32等編碼方案。

 

每種編碼方式有自己的特點,不同范圍內的字符用不同的編碼方式存儲所需的字節數是不一樣的。

 

1)

UTF-8具體的表現形式為:

  • 0xxxxxxx:單字節編碼形式,這和 ASCII 編碼完全一樣,因此 UTF-8 是兼容 ASCII 的;
  • 110xxxxx 10xxxxxx:雙字節編碼形式;
  • 1110xxxx 10xxxxxx 10xxxxxx:三字節編碼形式;
  • 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx:四字節編碼形式。

 

2)

下面兩種編碼方式還沒研究

UTF-16

UTF-32

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM