UTF-8 可變編碼格式

本文轉載自查看原文 2017-03-20 11:10 2154

轉自：http://blog.csdn.net/swedenfeng/article/details/53467720

UTF-8 是一種可變編碼格式，長度從一個字節到四個字節，可根據UTF-8字符的第一個字節來識別一個UTF-8字符的長度（具體見下面描述）.

因為網絡中大部分的字符是ASCII碼字符，UTF-8可以用一個字節表示ASCII字符，相較於UTF-16和UTF-32的兩個字節或者四個字節，大幅節省了空間和傳輸帶寬.

幾個UTF-8的編碼例子（由該網頁工具轉換 https://sites.google.com/site/nathanlexwww/tools/utf8-convert ）

字符 UTF-8編碼 Byte 1 Byte 2 Byte 3

A 01000001

Ö 11000011 10010110

中 11100100 10111000 10101101

Note: Byte 1 中開頭"1"的個數就是整個 UTF-8編碼中字節的數目（只適用於長度大於等於兩個字節的UTF編碼，表示ASCII編碼的UTF首字節的首位是0）

#以下內容部分來自wiki，部分來自stackoverflow.

UTF-8（8-bit Unicode Transformation Format）是一種針對Unicode的可變長度字符編碼，也是一種前綴碼。它可以用來表示Unicode標准中的任何字符，且其編碼中的第一個字節仍與ASCII兼容，這使得原來處理ASCII字符的軟件無須或只須做少部分修改，即可繼續使用。因此，它逐漸成為電子郵件、網頁及其他存儲或發送文字的應用中，優先采用的編碼。

UTF-8使用一至六個字節為每個字符編碼（盡管如此，2003年11月UTF-8被RFC 3629重新規范，只能使用原來Unicode定義的區域，U+0000到U+10FFFF，也就是說最多四個字節）：

Binary Hex Comments
0xxxxxxx 0x00..0x7F Only byte of a 1-byte character encoding
10xxxxxx 0x80..0xBF Continuation bytes (1-3 continuation bytes)
110xxxxx 0xC0..0xDF First byte of a 2-byte character encoding
1110xxxx 0xE0..0xEF First byte of a 3-byte character encoding
11110xxx 0xF0..0xF7 First byte of a 4-byte character encoding

對於UTF-8編碼中的任意字節X，如果X的第一位為0，則X獨立的表示一個字符(ASCII碼)
如果X的第一位為1，第二位為0，則X為一個多字節字符中的后續字節(非第一字節)
如果X的前兩位為1，第三位為0，則X為兩個字節表示的字符中的第一個字節
如果X的前三位為1，第四位為0，則X為三個字節表示的字符中的第一個字節
如果X的前四位為1，第五位為0，則X為四個字節表示的字符中的第一個字節

**Unicode 和 UTF-8 之間的轉換關系表 ( `x` 字符表示碼點占據的位 )**
碼點的位數	碼點起值	碼點終值	字節序列	Byte 1	Byte 2	Byte 3	Byte 4	Byte 5	Byte 6
7	U+0000	U+007F	1	`0xxxxxxx`
11	U+0080	U+07FF	2	`110xxxxx`	`10xxxxxx`
16	U+0800	U+FFFF	3	`1110xxxx`	`10xxxxxx`	`10xxxxxx`
21	U+10000	U+1FFFFF	4	`11110xxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
26	U+200000	U+3FFFFFF	5	`111110xx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`
31	U+4000000	U+7FFFFFFF	6	`1111110x`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`

在ASCII碼的范圍，用一個字節表示，超出ASCII碼的范圍就用字節表示，這就形成了我們上面看到的UTF-8的表示方法，這様的好處是當UNICODE文件中只有ASCII碼時，存儲的文件都為一個字節，所以就是普通的ASCII文件無異，讀取的時候也是如此，所以能與以前的ASCII文件兼容。
大於ASCII碼的，就會由上面的第一字節的前幾位表示該unicode字符的長度，比如110xxxxx前三位的二進制表示告訴我們這是個2BYTE的UNICODE字符；1110xxxx是個三位的UNICODE字符，依此類推；xxx的位置由字符編碼數的二進制表示的位填入。越靠右的x具有越少的特殊意義。只用最短的那個足夠表達一個字符編碼數的多字節串。注意在多字節串中，第一個字節的開頭"1"的數目就是整個串中字節的數目。

Some useful links:

http://www.unicode.org/Public/9.0.0/ucd/UnicodeData.txt

http://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=bin

##博客僅作個人記錄##

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 idea設置文件的編碼格式為utf-8 Eclipse設置UTF-8編碼格式 Springboot 編碼格式設置為UTF-8 Qt Creator 設置編碼格式為 UTF-8 Idea設置統一為utf-8編碼格式 utf-8無bom格式編碼 python設置文件編碼格式為UTF-8 Delphi讀取和寫入utf-8編碼格式的文件 Python2.x設置utf-8編碼格式將字符串的編碼格式轉換為utf-8