Java中为什么可以用一个char(两个字节)表示一个中文字符

本文转载自查看原文 2019-11-08 19:24 572 Java SE

　　比如这断程序：

char word = '字';
System.out.println("字".getBytes().length);   　　　　// 输出为 3

其输出结果为3，小伙伴们就要问了：“奇怪了，'字'这个字符，明明是三个字节，怎么可以用char类型的变量来表示？ char类型不是在java中是两个字节么？”

　　其实，java中有外码和内码之分，顾名思义，外码就是JVM外部使用的编码，比如你在编辑器中输入的“字”，假设是UTF-8编码，UTF-8是变长编码，一个中文可能是1-3个字节来表示；那么，在JVM中，用的都是Unicode码，这是定长编码，所有字符都统一使用两个字节表示，这就是Java的内码。

　　"字".getBytes() JVM执行这段逻辑，实际是进行了编码转换的，可以看String的源码实现：

public byte[] getBytes() {
    return StringCoding.encode(value, 0, value.length);    // 调用StringCoding.encode()　　　　　　
}

static byte[] encode(char[] ca, int off, int len) {
        String csn = Charset.defaultCharset().name();   　　　// 这里，Charset.defaultCharset()默认是UTF-8
        try {
            // use charset name encode() variant which provides caching.
            return encode(csn, ca, off, len);
        } catch (UnsupportedEncodingException x) {
            warnUnsupportedCharset(csn);
        }

可以看到，Java把字符串"字"(字符串就是char的数组), 编码为UTF-8 ，转为UTF-8的“字”，它的长度就变成了3个字节哦。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 java的char类型，只有两个字节，为什么可以存储汉字？java中 char详解 VBA 如何检测一个中文字符串是否包含在另一个字符串中 java中中文字符占几个字节？【excel】如何在一个表格中同时设置中文和西文两个字体判断一个字符串中是否含有中文字符： Oracle一个中文汉字占用几个字节 js判断输入字符串长度（汉字算两个字符，字母数字算一个）:例如要求输入12的字，24个字节 JS每隔两个字符添加一个字符 python匹配某个中文字符 lua 计算字符串字符个数“中文字算一个字符”