『實用』過濾字符串中的幽靈字符


背景:

一段明顯的字符串,可能潛伏着看不見 的 幽靈字符。

某些字符 比較常見、常用,比如: \r  \n  \t  

但是,有些 幽靈字符(保守估計 >200~1000個),不僅不常見,而且基本沒價值。

這些幽靈字符,潛伏在 正常字符串中,有的偽裝成空格符,有的直接隱形。

當你要 處理字符串時,這些幽靈字符 的 惡意可能就開始顯現 : 部分字符串函數 會因此引發BUG。

 

PS. 本文看似簡單,實際上好像確實很簡單 —— 百毒相關知識點,可用信息 並不多。

       幽靈字符 不常見,即便檫肩而過 往往都沒啥影響 —— 可一旦幽靈字符作惡起來,似乎都只能用 “詭異” 來形容。

 

舉例 1:

如下代碼,你看得出BUG么?

//將一個字符串中的 連續空格 替換成 單空格 
//【 隱形的幽靈字符 如果介於兩個空格之間,本函數就會發生 死循環。】
//【 即:string.IndexOf() 函數忽略了 隱形幽靈字符, 但 string.Replace() 函數卻要求嚴格。】
public static void FormatString(string sValue) { while (sValue.IndexOf(" ") >= 0) sValue = sValue.Replace(" ", " "); return sValue; }

2012年的一個 BUG,幾萬個網頁HTML 格式化,意外引發BUG,我才第一次見識到 幽靈字符 的厲害。

 

舉例 2:

復制如下SQL腳本,到 SQLServer 中執行一下 —— 幽靈字符 顯形了。

1    SELECT '4  k×4  k' 

 

如何剔除掉幽靈字符:

正則表達式: \s   (匹配字符串中的 空白字符,包括 空格 \r \n \t ... 也包括 幽靈字符)

 

用正則替換幽靈字符:

 1         private static readonly  Regex m_RegSpace = new Regex(@"\s", RegexOptions.Compiled | RegexOptions.IgnoreCase);
 2         /// <summary>
 3         /// 用正則表達式替換出 不常見、不常用 的幽靈字符
 4         /// </summary>
 5         public static string FormatStringByRegex(string str)
 6         {
 7             return m_RegSpace.Replace(str, m =>
 8             {
 9                 if (m.Value == " " || m.Value == "\r" || m.Value == "\n" || m.Value == "\t") return m.Value;
10                 return " ";
11             });
12         }

 

性能問題:

正則 \s 確實是 萬能的。

但在 某些情況下,正則效率 很低 —— 即便我 啟用了 編譯模式  RegexOptions.Compiled

 

於是,就有了下面的 最終代碼,純原生代碼:支持 .Net 2.0 ~ .Net 4.6

經過測試,使用 下面的 替換函數 比 使用正則 替換 效率快 10倍整。 

而且:

正則 \s 無法有效區分:哪些 幽靈字符 是 隱形的,哪些 幽靈字符 是偽裝成空格的。

而我們想要的:隱形的幽靈字符 直接剔除,偽裝成空格的幽靈字符 用 真正的空格代替。

 

最終代碼:

 1         /// <summary>
 2         /// 格式化一段字符串, 將字符串中的 非預期的 幽靈字符 刪除.
 3         /// <para>本函數將保留 空白符 \r 回車(CR) \n 換行(LF) \t 水平制表(HT) 這幾個常用字符</para>
 4         /// <para>其他未知的 幽靈字符 將直接剔除. 極少使用的 幽靈字符 也會被剔除</para>
 5         /// </summary>
 6         public static string FormatString(string str)
 7         {
 8             return FormatString(str, false);
 9         }
10         /// <summary>
11         /// 格式化一段字符串, 將字符串中的 非預期的 幽靈字符 刪除.
12         /// <para>本函數將保留 空白符 \r 回車(CR) \n 換行(LF) \t 水平制表(HT) 這幾個常用字符</para>
13         /// <para>preserveRare 參數決定如下字符是否保留(true: 保留, false 剔除, 默認 false剔除): \a 響鈴(BEL) \b 退格(BS) \f 換頁(FF) \v 垂直制表(VT) \0 空字符(一般C++標識字符串結束) </para>
14         /// <para>其他根本沒見過的 幽靈字符 將直接剔除.</para>
15         /// </summary>
16         public static string FormatString(string str, bool preserveRare)
17         {
18             if (string.IsNullOrEmpty(str)) return string.Empty;
19 
20             StringBuilder sb = new StringBuilder();
21             foreach (char c in str)
22             {
23                 if (c == ' ' || c == '\r' || c == '\n' || c == '\t') { sb.Append(c); continue; }
24                 if (c == '\a' || c == '\b' || c == '\f' || c == '\v' || c == '\0') { if (preserveRare) { sb.Append(c); } continue; }  //這段代碼感覺有性能問題,但細品之下卻發現:毫無破綻 25                 if (!char.IsWhiteSpace(c)) { sb.Append(c); continue; }
26 
27                 //剩下的 幽靈字符 特殊處理:
28                 //經過測試: 0x0 - 0xFFFFFF 的 char 字符中, 幽靈字符 要么是 控制符, 要么是分割符.
29                 //如果是 分隔符, 我們將其替換成空格
30                 //如果是 控制符, 我們將其直接剔除, 
31                 if (char.IsSeparator(c)) { sb.Append(' '); continue; }
32                 //if (char.IsControl(c)) continue; //無意義代碼,不需要執行:剩下的字符 通通過濾掉
33             }
34 
35             return sb.ToString();
36         }

 

 

                                                                                                                                                                                      InkFx

                                                                                                                                                                              2017-11-17 23:46

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM