一、字符編碼的發展歷程

①、ASCII 碼

　　因為計算機只認識數字，所以我們在計算機里面的一切數據都是以數字來表示，因為英文字符有限，所以規定使用的字節的最高位是 0，每一個字節都是以 0-127 之間的數字來表示。比如 A 對應 65，a 對應 97。這便是美國標准信息交換碼，ASCII

1 String str = new String("Aa");
2 byte[] strASCII = str.getBytes("ASCII");
3 System.out.println(Arrays.toString(strASCII));//[65, 97]

②、GB2312 碼

　　隨着計算機在全球的普及，很多國家和地區都把自己的字符引入了計算機，比如漢字。此時發現一個字節能表示的數字范圍太小，不能包含所有的中文漢字。那么就規定使用兩個字節來表示一個漢字。

　　規定：原有的 ASCII 字符的編碼保持不變，仍然使用一個字節表示，為了區別一個中文字符與兩個 ASCII 碼字符相區別。中文字符的每個字節最高位規定為 1（即中文的二進制是負數），這便是 GB2312 編碼

1 String str = new String("Aa帥鍋");
2 byte[] strASCII = str.getBytes("GB2312");
3 System.out.println(Arrays.toString(strASCII));//[65, 97, -53, -89, -71, -8]

③、GBK

　　由於中國漢字太多，在 GB2312 的基礎上增加了更多的中文字符，這種編碼是 GBK

問題：如果只是在中國，那么大家都認識漢字，但是如果是別的國家，而該國家的碼表中是沒有收錄漢字的。那么計算機在顯示的時候就為亂碼或是別的字符

解決辦法：為了解決各個國家因為本地化字符編碼帶來的影響，就把全世界所有的字符統一進行編碼---Unicode 編碼

　　　　　此時某一個字符在全世界任何地方顯示都是固定的，比如漢字哥，在任何地方都是以十六進制 54E5 來表示。

　　　　　Unicode 的字符編碼都占有兩個字節

④、UTF-8

　　是一種針對 Unicode 的可變長度字符編碼，又稱為萬國碼，是 Unicode 的實現方式之一。編碼中的第一個字節仍與 ASCII 兼容，這使得原來處理 ASCII 字符的軟件無須或只需做少部分修改，即可繼續使用。因此，它逐漸成為電子郵件、網頁及其他存儲或傳送文字的應用中，優先采用的編碼。互聯網工程工作小組（IETF）要求所有互聯網協議都必須支持 UTF-8 編碼

1 String str = new String("Aa帥鍋");
2 byte[] strASCII = str.getBytes("UTF-8");
3 System.out.println(Arrays.toString(strASCII));//[65, 97, -27, -72, -123, -23, -108, -123]

存儲字母、數字：無論什么字符集都占有 1 個字節

存儲漢字：GBK 家族占有 2 個字節。UTF-8 占有 3 個字節

　　　　 不能使用單字節的字符集（ASCII/ISO-8859-1）來存儲中文

二、字符的編碼和解碼

信息在計算機網絡中傳輸是以字節的形式。那么如何變為字節？這就是編碼的過程。那么計算機接收了這個編碼，如何讓使用者認識呢？那必須要將字節轉換為人所識別的字符串形式，這就是解碼的過程。

　　編碼：將字符串轉換為 byte 數組

　　解碼：把 byte 數組轉換為字符串

注意：①、編碼格式和解碼格式必須一致，否則亂碼

 1 String str = new String("Aa帥鍋");
 2         //編碼操作
 3         byte[] strByte = str.getBytes("GBK");
 4         System.out.println(Arrays.toString(strByte));//[65, 97, -53, -89, -71, -8]
 5 
 6         //解碼操作
 7         //注意編碼的字符集和解碼的字符集格式必須一致（是其擴展字符集也可以），否則會亂碼
 8         //第一種：編碼格式為 GBK，解碼格式為 ISO-8859-1  那么就會亂碼
 9         String str2 = new String(strByte,"ISO-8859-1");
10         
11         System.out.println(str2); //Aa?§??
12 
13         //第二種：編碼和解碼格式一致
14         String str4 = new String(strByte,"GBK");
15         //或者有另一種方式解碼,從位置0開始解碼，一直解碼到strByte.length
16         String str3 = new String(strByte,0,strByte.length,"GBK");
17         System.out.println(str4); //Aa帥鍋

三、亂碼情況分析

（1）字節數不夠

String str3 = new String(strByte,0,strByte.length-1,"GBK");

比如，末尾是一個中文，一個中文占2字節，減去一個就亂套了

（2）字符集不統一

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 java編碼解碼過程 java是如何編碼解碼的 Python：編碼與解碼和轉義字符 java 中String編碼和byte 解碼總結——字節流和字符流關於前台js編碼后台java解碼 encodeURIComponent編碼后java后台的解碼理清Java中的編碼解碼轉換 java中URLEncode和URLDecode，編碼與解碼 java 漢字與數字字母的編碼與解碼 java中URL 的編碼和解碼函數