漢字在計算機中的表示
一、一個漢字在計算機中占兩個字節的位置
西文字符中的ASCII碼表示西文字符是,用的是7位的ASCII碼,為了在計算機中存儲,最高位(第八位)默認為0,所以可以表示27個不同的字符;擴展的ASCII碼,使用的第八位,不在默認為0,所以最多可以表示28個字符。
中文跟西文不大一樣。中文的一個漢字占16位,也就是兩個字節的位置。編碼方式跟ASCII碼類似,但是為了與ASCII碼區別開來,最高位默認為1.
二、漢字編碼的過程
漢字編碼分為外碼、機內碼、字形碼、矢量漢字四個階段。
外碼是輸入碼,就像搜狗那樣的輸入法。機內碼有國標碼、BIG5等,這個過程是不會在電腦屏幕上顯示的。字形碼以點陣形式表示一個漢字。矢量漢字是用一種軟件在屏幕上顯示漢字字形,可以隨意的放大縮小。
國標碼是 用於計算機之間或與終端之間信息交換時的漢字代碼(GB2312,GBK,GB18030), 由連續的兩個字節組成,每個字節七位有效,最高位為1。
字形碼是確定一個漢字字形點陣的代碼, 漢字字形點陣中的每個點對應一個二進制位。
矢量漢字是用軟件描述漢字 ,矢量字庫保存對每一個漢字的描述信息,比如一個筆划的起始、終止坐標,半徑、弧度等等。在輸出時要經過一定的數學運算。 矢量漢字可隨意放大、縮小而不變形。 Windows使用的字庫為以上兩類。在FONTS目錄下,擴展名為FON的文件為點陣字庫;擴展名為TTF為矢量字庫。
三、漢字信息處理過程