Java實現按字節長度截取字符串的方法

本文轉載自查看原文 2013-04-10 12:09 8646 Java/ java漢字截取/ 字節截取

Web應用程序在瀏覽器中顯示字符串時，由於顯示長度的限制，常常需要將字符串截取后再進行顯示。但目前很多流行的語言，如C#、Java內部采用的都是 Unicode 16（UCS2）編碼，在這種編碼中所有的字符都是兩個字符，因此，如果要截取的字符串是中、英文、數字混合的，就會產生問題，如下面的字符串：

String s = "a加b等於c，如果a等1、b等於2，那么c等3";

上面的字符串既有漢字，又有英文字符和數字。如果要截取前6個字節的字符，應該是”a加b等"，但如果用substring方法截取前6個字符就成了"a 加b等於c"。產生這個問題的原因是將substring方法將雙字節的漢字當成一個字節的字符（UCS2字符）處理了。要解決這個問題的方法是首先得到該字符串的UCS2編碼的字節數組，如下面的代碼如下：

byte[] bytes = s.getBytes("Unicode");

由於上面生成的字節數組中前兩個字節是標志位，bytes[0] = -2，bytes[1] = -1，因此，要從第三個字節開始掃描，對於一個英文或數字字符，UCS2編碼的第二個字節是相應的ASCII，第一個字節是0，如a的UCS2編碼是0 97，而漢字兩個字節都不為0，因此，可以利於UCS2編碼的這個規則來計算實際的字節數，該方法的實現代碼如下：

    public static String bSubstring(String s, int length) throws Exception
    {

        byte[] bytes = s.getBytes("Unicode");
        int n = 0; // 表示當前的字節數
        int i = 2; // 要截取的字節數，從第3個字節開始
        for (; i < bytes.length && n < length; i++)
        {
            // 奇數位置，如3、5、7等，為UCS2編碼中兩個字節的第二個字節
            if (i % 2 == 1)
            {
                n++; // 在UCS2第二個字節時n加1
            }
            else
            {
                // 當UCS2編碼的第一個字節不等於0時，該UCS2字符為漢字，一個漢字算兩個字節
                if (bytes[i] != 0)
                {
                    n++;
                }
            }
        }
        // 如果i為奇數時，處理成偶數
        if (i % 2 == 1)

        {
            // 該UCS2字符是漢字時，去掉這個截一半的漢字
            if (bytes[i - 1] != 0)
                i = i - 1;
            // 該UCS2字符是字母或數字，則保留該字符
            else
                i = i + 1;
        }

        return new String(bytes, 0, i, "Unicode");
    }

下面代碼使用了bSubstring方法：

String s = "a加b等於c，如果a等1、b等於2，那么c等3";
System.out.println(bSubstring(s, 6));

上面的代碼截取的字符串是"a加b等"。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 按字節長度截取字符串按字節長度截取字符串 java截取字符串中字節長度【轉】 JAVA按字節截取字符串 java 按字節截取字符串 java按字節截取字符串 String截取字符串的指定字節長度 C# 按指定(字節)長度截取字符串 js按字節長度截取字符串 Java中根據字節截取字符串