解決在C#（.net）按字節數截取字符串最后出現亂碼的問題

本文轉載自查看原文 2018-05-10 17:25 2431 C#/.Net

最近需要用到按字節數截取字符串。在網上找了很多方法。

Encoding.Default.GetString采用的Default
Encoding.UTF8.GetBytes采用的是utf-8編碼。這樣當然是亂碼。尤其出現中文時候。
對這類數據處理當然要用統一的編碼來處理。

例子：1
string msg= Encoding.UTF8.GetString(Encoding.UTF8.GetBytes(strcode));
例子：2
string strcode="我是小明";
byte[] buffer=Encoding.UTF8.GetBytes(strcode);
string msg= Encoding.UTF8.GetString(buffer,0,buffer.Length);

實際結果是截取的結尾會出現亂碼。原因是最后的字符是多個字節，被不完整的截取了。

改進后的辦法如下：

        /// <summary>
        /// 按字節數截取字符串的方法(比SubString好用)
        /// </summary>
        /// <param name="source">要截取的字符串（可空）</param>
        /// <param name="NumberOfBytes">要截取的字節數</param>
        /// <param name="encoding">System.Text.Encoding</param>
        /// <param name="suffix">結果字符串的后綴（超出部分顯示為該后綴）</param>
        /// <returns></returns>
        public static string SubStringByBytes(string source, int NumberOfBytes, System.Text.Encoding encoding, string suffix = "...")
        {
            if(string.IsNullOrWhiteSpace(source) || source.Length == 0)
                return source;

            if(encoding.GetBytes(source).Length <= NumberOfBytes)
                return source;

            long tempLen = 0;
            StringBuilder sb = new StringBuilder();
            foreach(var c in source)
            {
                Char[] _charArr = new Char[] { c };
                byte[] _charBytes = encoding.GetBytes(_charArr);
                if((tempLen + _charBytes.Length) > NumberOfBytes)
                {
                    if(!string.IsNullOrWhiteSpace(suffix))
                        sb.Append(suffix);
                    break;
                }
                else
                {
                    tempLen += _charBytes.Length;
                    sb.Append(encoding.GetString(_charBytes));
                }
            }
            return sb.ToString();
        }
        /// <summary>
        /// 按字節數截取字符串的方法(比SubString好用)
        /// </summary>
        /// <param name="source">要截取的字符串（可空）</param>
        /// <param name="NumberOfBytes">要截取的字節數</param>
        /// <param name="encoding">UTF-8，Unicode，GB2312...</param>
        /// <param name="suffix">結果字符串的后綴（超出部分顯示為該后綴）</param>
        /// <returns></returns>
        public static string SubStringByBytes(string source, int NumberOfBytes, string encoding = "UTF-8", string suffix = "...")
        {
            return SubStringByBytes(source, NumberOfBytes, Encoding.GetEncoding(encoding), suffix);
        }

原理很簡單，就是截取之前逐個先判斷字符是否超出字節長度，如果超出則扔掉整個字符。

在JavaScript里面的Blob對象很容易獲取字節長度： var len= new Blob(['字符串']).size;

JS代碼是不是比較簡潔？

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C#中如何按字節數截取字符串？ c# 獲取字符串的字節數 C#獲取字符串的字節數 C# 獲取字符串的字節數根據字節數截取字符串 C# 字符串到字節數組,字節數組轉整型 c# 字符串字節數計算 C# 字符串、字節數組互相轉換 C# 字符串轉字節數組 C# 字節數組與字符串互相轉換