刨根究底字符編碼之一——關鍵術語解釋(上)

本文轉載自查看原文 2017-05-20 15:50 3583 Unicode/ 字符集/ GBK/ 字節序/ UTF-8/ UTF-16/ 字符編碼/ ASCII/ GB2312/ 大小端/ 刨根究底字符編碼

聲明：本系列文章參考了網上的大量資料，除了少部分資料由於未作大量修改(但基本上也有少量修改，因為網上文章隨意性較大，很多明顯的筆誤或前后矛盾之處，如若不改反而讓人迷糊)而標明了原作者和出處之外，其余由於基本上已按自己的理解作了大量改寫，因此沒有再一一予以說明，在此對原作者表示歉意並感謝。另外，文中圖片部分來自網絡，部分為本人制作，也不再一一說明。同時，文中若有錯漏，還請直接招呼板磚，不用客氣。

關鍵術語解釋

一、位

即比特(Bit)，亦稱二進制位、比特位、位元、位，指二進制數中的一位，是計算機中信息表示的最小單位。

Bit是Binary digit（二進制數位）的縮寫，由數學家John Wilder Tukey提出，習慣上以小寫字母b表示，如8比特可表示為8b。

每個比特有0和1兩個可能的值，除了代表數值本身之外，還可代表：

數值的正、負；
兩種狀態，如電燈的開、關，某根導線上電壓的有、無，等等；
一個抽象邏輯上的是、否。

二、字節

在計算機中，通常都會使用一連串的位(比特)，稱之為位串(bit string比特串)。很顯然，計算機系統都不會讓你使用任意長度的位串，而是使用某個特定長度的位串。

一些常見的位串長度形式具有約定好的名稱，如，半字節(nibble，貌似用的不多)代表四個位的組合，字節(byte)代表8個位的組合；還有字(word)、雙字(Double word，簡寫為Dword)、四字(Quad word，簡寫為Qword)、十字節(Ten byte，簡寫為Tbyte)。

字節(byte)，又稱為位元組，音譯為“拜特”(但很少使用這個譯名)，是計算機中計量存儲容量和傳輸容量的一種基本計量單位，是由連續的、固定數量的位(即比特)所組成的位串(即比特串)，一般由8個位組成，即1 byte = 8 bit。習慣上用大寫的B表示，如3字節可表示為3B。

現代個人計算機(PC)的存儲器編址，一般是以字節為單位的，稱之為按字節編址，因此字節一般也是存儲器的最小存取單元以及處理器的最小尋址單位（也有按位尋址、按字尋址等等，但在個人計算機上應用不普遍，這里不討論）。

字節作為存儲器的最小存取單元以及處理器的最小尋址單位這一重要特點，跟字符編碼的關系極為密切（比如，碼元的單字節與多字節、字節序的大端序與小端序等，都與以字節為基礎的基本數據類型密切相關，詳見后文介紹）。

習慣上，按照下面的圖來排列一個字節上的各個位的順序，即按照從右到左的順序，依次為最低位(第0位)到最高位(第7位)：

注意，字節不一定非得是8位，以前也有過4位、6位或7位作為一個字節的標准，比如IBM 701（36位字長，18位為一字節）、IBM 702（7位字長，7位為一字節）、CDC 6600（60位字長，12位為一字節byte）等，只是現代計算機的事實標准就是用8位來代表一個字節（最終形成這一事實標准除了歷史原因和商業原因之外，最重要的原因應該是由於二進制的特性：2的次方計算更方便快捷）。

正是因為這個原因，在很多較為嚴謹的技術規格文獻中，為了避免產生歧義，更傾向於使用8位組（Octet）而不是字節（Byte）這個術語來強調8比特位串。

不過，由於大眾基本上都將字節理解為8比特位的8位組，因此一般文章中如果未作特別說明，基本上都將8位組直接稱之為字節。

三、字與字長

1、

雖然字節是大多數現代計算機的最小存儲單元和傳輸單元，但並不代表它是計算機可以最高效地處理的數據單位。

一般來說，計算機可以最高效地處理的數據大小，應該與其字的字長相同，這就涉及到了字及字長的概念。

字(Word)：在計算機中，一串比特位(位串、比特串)是作為一個整體來處理或運算的，這串比特位稱為一個計算機字，簡稱字。字通常分為若干個字節(每個字節一般是8位)。

字長(Word Length)：即字的長度，是指計算機的每個字所包含的位數。字長決定了CPU一次操作所處理的實際比特位數量的多少。字長由CPU對外數據通路的數據總線寬度決定。

計算機處理數據的速率，顯然和它一次能加工的位數以及進行運算的快慢有關。如果一台計算機的字長是另一台計算機的兩倍，若兩台計算機的速度相同，在相同的時間內，前者能做的工作一般是后者的兩倍。因此，字長與計算機的功能和用途有很大的關系，是計算機的一個重要技術指標。

在目前來講，桌面平台的處理器字長正處於從32位向64位過渡的時期，嵌入式設備基本穩定在32位，而在某些專業領域（如高端顯卡），處理器字長早已經達到了64位乃至更多的128位

四、字符集

字符集(Character Set、Charset)，字面上的理解就是字符的集合，是一個自然語言文字系統支持的所有抽象字符的集合。字符是各種文字和符號的總稱，包括文字、數字、字母、音節、標點符號、圖形符號等。

例如ASCII字符集，定義了128個字符；GB2312定義了7445個字符。而計算機系統中提到的字符集准確地來說，指的是已編號的字符的有序集合(但不一定是連續的)。

常見字符集有ASCII字符集、ISO 8859系列字符集、GB系列字符集(GB2312、GBK、GB18030)、BIG5字符集、Unicode字符集等。

注：圖中所示微軟在GB2312的基礎上擴展制訂了GBK(Guo-Biao Kuozhan)，然后GBK才成為“國家標准”(也有說GBK不是國家標准，只是“技術規范指導性文件”)；但網上也有資料說是先有GBK(由全國信息技術標准化技術委員會1995年12月1日制訂)，然后微軟才在其內部所用的CP936字碼表(Code Page 936代碼頁936，代碼頁的解釋詳見后文)中以GBK為基礎進行了擴展(即Windows系統的代碼頁CP936是GBK漢字內碼擴展規范的一個實現)。

五、編碼

編碼(Encode)，是信息從一種形式或格式轉換為另一種形式或格式的過程，比如用預先規定的方法將字符(文字、數字、符號等)、圖像、聲音或其它對象轉換成規定的電脈沖信號或二進制數字。

六、解碼

解碼(Decode)，為編碼的逆過程。

七、字符編碼

字符編碼(Character Encoding)，是把字符集中的字符按一定格式(形式、方式)編碼為某指定集合中某一對象(比如由0和1兩個數字所組成的位串模式、由0~9十個數字所組成的自然數序列、電脈沖等)的過程，亦即在字符集與指定集合兩者之間建立一個對應關系(映射關系)的過程。這是信息處理的一項基礎技術。

而在計算機科學中，通常以字符集來表達信息，以計算機為基礎的信息處理系統則利用電子元件(硬件)的不同狀態的組合來表示、存儲和處理信息。

電子元件不同狀態(一般是開和關或稱為開和閉兩種狀態)的組合能代表數字系統中的數字(比如開和關代表二進制中的0和1)，因此字符編碼的過程也就可以理解為將字符轉換映射為計算機可以接受的二進制數字的過程，其目的是為了便於字符在計算機中表示、存儲、處理和傳輸(包括在網絡中傳輸)。

常見的例子包括將拉丁字母表編碼成摩斯電碼和ASCII碼。其中，ASCII將字母、數字和其它符號進行編號，並且在計算機中直接用7比特的二進制數字來表示這個編號。通常會額外地在最高位(即首位)再增加一個擴充的比特位“0”，以便於計算機系統剛好以1個字節(8比特位)的方式來進行處理、存儲和傳輸。

八、字符編碼模型

字符編碼模型(Character Encoding Model)，是反映字符編碼系統的結構特點和各構成部分相互關系的模型框架。

由於歷史的原因，早期一般認為字符集和字符編碼是同義詞，並不需要進行嚴格區分。因此在像ASCII這樣的簡單字符集為代表的傳統字符編碼模型中，這兩個概念的含義幾乎是等同的。

因為在傳統字符編碼模型中，基本上都是將字符集里的字符進行編號(字符編號轉化為二進制數后一般不超過一個字節)，然后該字符編號就是字符的編碼。

但是，由統一碼(Unicode)和通用字符集(UCS)為代表的現代字符編碼模型則沒有直接采用ASCII這樣的簡單字符集的編碼思路，而是采用了一個全新的編碼思路。

這個全新的編碼思路將字符集與字符編碼的概念更為細致地分解為了以下幾個方面：

1）有哪些字符；

2）這些字符的編號是什么；

3）這些編號如何編碼成一系列邏輯層面有限大小的數字，即碼元序列；

4）這些邏輯層面的碼元序列如何轉換為(映射為)物理層面的字節流(字節序列)；

5）在某些特殊的傳輸環境中(比如Email)，再進一步將字節序列進行適應性編碼處理。

這幾個方面作為一個整體，於是構成了現代字符編碼模型。

現代字符編碼模型之所以要分解為這么幾個方面，其核心思想是創建一個能夠用不同方式來編碼的通用字符集。注意這里的關鍵詞：“不同方式”與“通用”。

這意味着，同一個字符集，可以通用於不同的編碼方式；也就是說，可以采用不同的編碼方式來對同一個字符集進行編碼。字符集與編碼方式之間的關系可以是一對多的關系。

更進一步而言，在傳統字符編碼模型中，字符編碼方式與字符集是緊密結合在一起的；而在現代字符編碼模型中，字符編碼方式與字符集脫鈎了。用軟件工程的專業術語來說，就是將之前緊密耦合在一起的字符編碼方式與字符集解耦了。

因此，為了正確地表示這個現代字符編碼模型，需要采用更多比“字符集”和“字符編碼”更為精確的概念術語來描述。

在Unicode Technical Report (UTR統一碼技術報告) #17《UNICODE CHARACTER ENCODING MODEL》中，現代字符編碼模型分為了5個層次，並引入了更多的概念術語來描述（下面所涉及到的一些全新的概念術語，這里只做簡介，暫時不作解釋，但后文會陸續進行詳細解釋）：

第1層 抽象字符表ACR(Abstract Character Repertoire抽象字符清單)：明確字符的范圍(即確定支持哪些字符)

第2層 編號字符集CCS(Coded Character Set)：用數字編號表示字符(即用數字給抽象字符表ACR中的字符進行編號)

第3層 字符編碼方式CEF(Character Encoding Form字符編碼形式、字符編碼格式、字符編碼規則)：將字符編號編碼為邏輯上的碼元序列(即邏輯字符編碼)

第4層 字符編碼模式CES(Character Encoding Scheme)：將邏輯上的碼元序列映射為物理上的字節序列(即物理字符編碼)

第5層 傳輸編碼語法TES(Transfer Encoding Syntax)：將字節序列作進一步的適應性編碼處理

后面將分層予以介紹。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。