GB2312編碼大約包含6000多漢字(不包括特殊字符),編碼范圍為第一位b0-f7,第二位編碼范圍為a1-fe(第一位為cf時,第二位為a1-d3),計算一下漢字個數為6762個漢字。當然還有其他的字符。包括控制鍵和其他字符大約7573個字符編碼。
gbk編碼是對gb2312編碼的擴充,容納的漢字更多,但僅僅是擴充,沒有質的變化。保留了所有gb2312編碼,在此基礎上進行編碼范圍的擴充.容納(包含特殊字符)共22014個字符編碼.
gb18030編碼是在gbk編碼基礎上的擴充,因為漢字更多,僅僅使用兩位編碼已經不能容納要求的漢字,所以采用了2/4位混和的辦法,可以支持更多的漢字編碼。並且保留了原有的gbk 2字節編碼兼容gb2312和gbk編碼的文件。大概容納55657個編碼(包含特殊字符)unicode編碼(也就是UTF編碼):俗稱萬國碼,致力於使用統一的編碼准則表達各國的文字。
為表達更多的文字,utf-8采用2/3混編的方式。目前容納的漢字范圍小於gbk編碼。並且以3字節的方式處理中文,帶來了兼容性的問題,原有的gbk,gb2312,gb18030編碼文件都不能正常的處理,還有很長的路要走。
