0)學習筆記:
我們常說的這句話“Unicode字符是2個字節”這句話有毛病
Unicode目前規划的總空間有17個平面, 0x0000---0x10FFFF,每個平面有 65536 個碼點.
Unicode支持的字符上限是65536個 這句話也是有問題的,這65536個字符是我們最常用的基本字符,但是還有很多字符是在0x0000--0xFFFF之外的
unicode存儲在計算機內存里肯定是需要編碼的,那么就有UTF-8,UTF-16,UTF-32等編碼方案。
每種編碼方式有自己的特點,不同范圍內的字符用不同的編碼方式存儲所需的字節數是不一樣的。
1)
UTF-8具體的表現形式為:
- 0xxxxxxx:單字節編碼形式,這和 ASCII 編碼完全一樣,因此 UTF-8 是兼容 ASCII 的;
- 110xxxxx 10xxxxxx:雙字節編碼形式;
- 1110xxxx 10xxxxxx 10xxxxxx:三字節編碼形式;
- 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx:四字節編碼形式。
2)
下面兩種編碼方式還沒研究
UTF-16
UTF-32