基本概念
- 輸入碼:是一種用來輸入漢字的輸入法編碼方式。
- 國標碼:國標碼,也稱為交換碼,是一種用來輸入漢字的輸入法編碼方式。
- 機內碼:是計算機中用於表示字符、數字、符號等的二進制代碼。它直接對應於電腦中的物理電路狀態,是計算機處理數據時所使用的最基本形式,通常是由一定數量的二進制位組成的數字編碼。
- 字形碼:點陣代碼的一種,把漢字按圖形符號設計成點陣圖,就得到了相應的點陣代碼(字形碼)。
漢字信息處理流程
漢字輸入到計算機內部之后,通過國標碼將對應漢字的編碼找出來;然后,對應的漢字國標碼轉換為機內碼進行存儲;最后,以字形碼的標准正確顯示每一個漢字的點陣圖。
輸入碼
根據漢字的發音(拼音)和筆畫來確定漢字的編碼。不同的輸入碼方式可能有不同的編碼規則和鍵盤布局,但一般都需要用戶根據漢字的拼音來查找相應的鍵碼。
最常見的輸入法之一是“拼音輸入法”,它的輸入碼是根據漢字的拼音音節來確定的。例如,在使用拼音輸入法的電腦上,如果要輸入“中”字,則只需要按一下鍵盤上的“zhong”鍵,然后在提示框中選擇“中”字即可輸入。
目前常用的漢字編碼有:
- 音碼:主要是以漢語拼音為基礎的編碼方案,如全拼、雙拼等。目前比較流行的拼音輸入法有搜狗拼音輸入法。
- 形碼:形碼主要是根據漢字的特點,按漢字固有的形狀,把漢字拆分成部首,然后進行組合,代表有五筆輸入法。
區位碼
區位碼是按照漢字的筆畫和在字形圖中所處的位置(區位)的代碼,將漢字進行編號的一種方法。
區位碼由兩位數字組成,其中第一位數字代表漢字在筆畫順序表中的筆畫數,第二位數字代表漢字所處筆畫的位置(區位)。不過由於區位碼處理方法較為復雜,也存在碼位不夠、無法表示繁體字等問題,逐漸被拼音輸入法等更加便捷的漢字輸入法所取代。
國標碼
國標碼是我國 1980 年發布的字符編碼,代號為 GB2312。國標碼轉換為機內碼的過程是將國標碼的編碼值轉換為對應的二進制形式,以便計算機硬件能夠處理。
國標碼計算
機內碼
機內碼,也稱為內部編碼或機器碼,是計算機在內部使用的一種編碼系統。它是計算機硬件和微處理器所能直接識別和處理的編碼形式。
機內碼通常是二進制的形式,由 0 和 1 組成。可以表示各種數據類型,如整數、字符、浮點數等。不同的數據類型可能使用不同的機內碼表示方式,例如,整數可以使用補碼表示。
機內碼計算
漢字在計算機內部占用兩個字節。機內碼與 GB2312 國標碼之間有着明顯的區別。GB2312 國標碼可以被看作是字典目錄,而機內碼可以被看作是字典實實在在記錄的每一條數據。
字形碼
漢字字形碼也叫作漢字字模或漢字輸出碼,用於漢字在顯示屏或打印機輸出。漢字字形碼有兩種表示方式:點陣式和矢量式。
一般漢字的點陣式 16×16,點陣越大,描述的字形越細致沒關,質量越高,所占存儲空間也越大。在計算機中,8 個二進制位組成一個字節,因此,一個 16×16 點陣的字形碼需要:
最后計算的要求是字節單位,因此計算結果需要除以 8。
1 bit = 8 byte;1024 byte = 1 kbyte(kb)。
計算題
【問題】一個漢字“大”的區位碼是 2083,求國標碼和機內碼?
【解析】
- 以四位十進制數來表示,20 是區碼,83 是位碼。
- 區碼和位碼要單獨進行進制轉換。區碼 20 的十六進制為 14H,位碼 83 的十六進制為 53H。
- 分別對區碼和位碼進行加法運算,即加 20H,就可以得到漢字的國標碼。
- 通過以上得到的兩個十六進制數再分別加 80H,就可以得到漢字的機內碼。
【計算】
- 國標碼:
14H + 20H = 34H
、53H + 20H = 73H
。 - 機內碼:
34H + 80H = B4H
、73H + 80H = F3H
。
因此,國標碼是 3473H;機內碼是 B4F3H。