舉例說明Unicode 和UTF-8之間的轉換

本文轉載自查看原文 2019-03-26 18:03 1225

1)寫這篇博客的原因

首先我要感謝這篇博客，卡了很久，看完下面這篇博客終於明白Unicode怎么轉換成UTF-8了。

https://blog.csdn.net/qq_32252957/article/details/83054183

2)啰嗦一些相關的東西

Unicode是一個字符集，Unicode是定長的都為雙字節。

對於漢字來說Unicode占有的字節比UTF-8占用的字節少1個字節。Unicode為雙字節，而UTF-8中漢字占三個字節。

Unicode為雙字節，而UTF-8中漢字占三個字節。

3)UTF-8編碼表

        U-00000000 - U-0000007F: 0xxxxxxx
        U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
        U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
        U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
        U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
        U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

在多字節串中, 第一個字節的開頭"1"的數目就是整個串中字節的數目。而第一行中以0開頭，是為了兼容ASCII編碼，為一個字節，第二行就為雙字節字符串，第三行為3字節，如漢字就屬於這種，以此類推。(個人認為：其實我們可以簡單的把前面的1的個數看成字節數)

4)例子

為了要將Unicode轉換為UTF-8，當然要知道他們的區別到底在什么地方。下面來看一下，在Unicode中的編碼是怎樣轉換成UTF-8的，在UTF-8中，如果一個字符的字節小於0x80（128）則為ASCII字符，占一個字節，可以不用轉換，因為UTF-8兼容ASCII編碼。假如在Unicode中漢字“你”的編碼為“u4F60”，把它轉換為二進制為100111101100000，然后按照UTF-8的方法進行轉換。可以將Unicode二進制從地位往高位取出二進制數字，每次取6位，如上述的二進制就可以分別取出為如下所示的格式，前面按格式填補，不足8位用0填補。

unicode: 100111101100000                  4F60
utf-8:    11100100,10111101,10100000       E4BDA0

5)逆轉換 UTF-8轉換成Unicode

從上面就可以很直觀的看出Unicode到UTF-8之間的轉換，當然知道了UTF-8的格式后，就可以進行逆運算，就是按照格式把它在二進制中的相應位置上取出，然后在轉換就是所得到的Unicode字符了（這個運算可以通過“位移”來完成）。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Unicode和UTF-8之間的轉換 java Unicode和UTF-8之間轉換 Python UNICODE GBK UTF-8 之間相互轉換 C#_漢字與GBK,Unicode,UTF-8編碼之間的轉換多字節與UTF-8、Unicode之間的轉換 Unicode 和 UTF-8 之間的關系漢字編碼（【Unicode】【UTF-8】【Unicode與UTF-8之間的轉換】【漢字 Unicode 編碼范圍】【中文標點Unicode碼】【GBK編碼】【批量獲取漢字UNICODE碼】） ASCII Unicode UTF-8 之間的關系 ascll、Unicode、utf-8、gbk之間的區別 JS中unicode和utf-8的轉換