關於java中char占幾個字節，漢字占幾個字節

本文轉載自查看原文 2017-11-09 10:21 1134 知識跟算法

我們平常說，java中char占2個字節，可又說漢字在不通的編碼格式中所占的位數是不同的，比如gbk中漢字占2個字節，utf8中多數占3個字節，少數占4個。而所有漢字在java程序中我們都可以簡單的用 char c = '字' 表示; 那么問題來了，在java程序運行的時候，究竟漢字占幾個字節呢？

--------------------------

文章抄襲自： http://www.cnblogs.com/louiswong/p/6062417.html

在討論這個問題之前，我們需要先區分unicode和UTF。

1、unicode ：統一的字符編號，僅僅提供字符與編號間映射。符號數量在不斷增加，已超百萬。詳細：[ https://zh.wikipedia.org/zh-cn/Unicode]

2、UTF ：unicode轉換格式 (unicode transformation format) 。定義unicode中編號的編碼方式。utf8和utf16便是其中兩種實現方式。其中utf8為變長表示，長度可能時1～6個字節；utf16為變長表示，長度可能是2或4個字節。詳細：UTF8 [ https://zh.wikipedia.org/zh-cn/UTF-8] UTF16 [ https://zh.wikipedia.org/zh-cn/UTF-16]

接着，要分清內碼（internal encoding）和外碼（external encoding）。

1、內碼 :某種語言運行時，其char和string在內存中的編碼方式。

2、外碼 :除了內碼，皆是外碼。

要注意的是，源代碼編譯產生的目標代碼文件（可執行文件或class文件）中的編碼方式屬於外碼。

先看一下內碼

JVM中內碼采用UTF16。早期，UTF16采用固定長度2字節的方式編碼，兩個字節可以表示65536種符號（其實真正能表示要比這個少），足以表示當時unicode中所有字符。但是隨着unicode中字符的增加，2個字節無法表示所有的字符，UTF16采用了2字節或4字節的方式來完成編碼。Java為應對這種情況，考慮到向前兼容的要求，Java用一對char來表示那些需要4字節的字符。所以，java中的char是占用兩個字節，只不過有些字符需要兩個char來表示。

詳細：

[ https://docs.oracle.com/javase/tutorial/i18n/text/unicode.html][ http://www.zhihu.com/question/27562173]

外碼

Java的class文件采用UTF8來存儲字符，也就是說，class中字符占1～6個字節。

Java序列化時，字符也采用UTF8編碼，占1～6個字符。

總結：

1、java中內碼（運行內存）中的char使用UTF16的方式編碼，一個char占用兩個字節，但是某些字符需要兩個char來表示。所以，一個字符會占用2個或4個字節。

2、java中外碼中char使用UTF8的方式編碼，一個字符占用1～6個字節。

3、UTF16編碼中，英文字符占兩個字節；絕大多數漢字（尤其是常用漢字）占用兩個字節，個別漢字（在后期加入unicode編碼的漢字，一般是極少用到的生僻字）占用四個字節。

4、UTF8編碼中，英文字符占用一個字節；絕大多數漢字占用三個字節，個別漢字占用四個字節。

----------------------------------------------

綜上，java運行時采用utf16編碼，多數漢字占2個字節，一個char就夠了，少數占4個字節，需要兩個char來表示。

說明：utf16中，通常漢字2字節，CJKV擴展B區、擴展C區、擴展D區的漢字占4個字節。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 關於java中char占幾個字節，漢字占幾個字節 Java一個漢字占幾個字節（詳解與原理） Java中 boolean類型值到底占幾個字節的問題？ java中中文字符占幾個字節？ int占幾個字節？ javaInt占幾個字節 ORACLE數據庫漢字占幾個字節問題 Oracle-一個中文漢字占幾個字節? 在C，C++，JAVA中int,char,各占幾個字節一個字符占幾個字節