Java 判斷中文字符串長度

本文轉載自查看原文 2020-03-05 17:02 6402 java

package cn.com.songjy.test;

import java.io.UnsupportedEncodingException;

/**
* 在Java中按字節獲得字符串長度的兩種方法
*
*/

public class App
{
public static void main( String[] args ) throws UnsupportedEncodingException
{
String str = "只";

System.out.println(getWordCount(str));
System.out.println(getWordCountRegex(str));
System.out.println(getWordCountCode(str,"GBK"));
System.out.println(getWordCountCode(str,"UTF-8"));
}

/*由於Java是基於Unicode編碼的，因此，一個漢字的長度為1，而不是2。
* 但有時需要以字節單位獲得字符串的長度。例如，“123abc長城”按字節長度計算是10，而按Unicode計算長度是8。
* 為了獲得10，需要從頭掃描根據字符的Ascii來獲得具體的長度。如果是標准的字符，Ascii的范圍是0至255，如果是漢字或其他全角字符，Ascii會大於255。
* 因此，可以編寫如下的方法來獲得以字節為單位的字符串長度。*/
public static int getWordCount(String s)
{
int length = 0;
for(int i = 0; i < s.length(); i++)
{
int ascii = Character.codePointAt(s, i);
if(ascii >= 0 && ascii <=255)
length++;
else
length += 2;

}
return length;

}

/*基本原理是將字符串中所有的非標准字符（雙字節字符）替換成兩個標准字符（**，或其他的也可以）。這樣就可以直接例用length方法獲得字符串的字節長度了*/
public static int getWordCountRegex(String s)
{

s = s.replaceAll("[^\\x00-\\xff]", "**");
int length = s.length();
return length;
}

/*按特定的編碼格式獲取長度*/
public static int getWordCountCode(String str, String code) throws UnsupportedEncodingException{
return str.getBytes(code).length;
}
}

漢字中有生僻字：“掱”，結果計算出長度為2、UTF-8 長度3。

System.out.println("璐璐aa".getBytes(EccsConfig.ENCODING).length);
System.out.println("璐璐aa".getBytes("GBK").length);
System.out.println("璐璐aa".length());
System.out.println(Charset.defaultCharset().name());
System.out.println(Character.codePointAt("璐", 0));
System.out.println(Character.codePointAt("a", 0));
輸出結果：

8
6
4
GBK
29840
97

————————————————
版權聲明：本文為CSDN博主「曉明兄」的原創文章，遵循 CC 4.0 BY-SA 版權協議，轉載請附上原文出處鏈接及本聲明。
原文鏈接：https://blog.csdn.net/ss300400a/article/details/56673634

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Java 完美判斷字符串中中文字符【中文符號】判斷字符串是否以中文字符開頭使用Java判斷字符串中的中文字符數量 java判斷獲取到的中文字符串是否亂碼 js 驗證文本框中字符串輸入的長度，支持中文字符 Java 判斷中文字符 Java判斷中文字符 Java 完美判斷中文字符 C#中的String.Length獲取中文字符串長度出錯 Python 中文字符串長度讀取不一致解決