你真的會用java replaceAll函數嗎?


     replace、replaceAll、replaceFirst這三個函數會java的同學估計都用過,筆者已經用了2年多,可是,我們真的懂他們嗎?

     概述一下他們三個的用法:

 

          · replace(CharSequence target, CharSequence replacement),用replacement替換所有的target,兩個參數都是字符串。

          · replaceAll(String regex, String replacement),用replacement替換所有的regex匹配項,regex很明顯是個正則表達式,replacement是字符串。

          · replaceFirst(String regex, String replacement),基本和replaceAll相同,區別是只替換第一個匹配項。

 

     接下來有個簡單的需求,就是把源字符串中的a替換成\a,代碼如下:

1 System.out.println("abac".replace("a", "\\a")); //\ab\ac
2 System.out.println("abac".replaceAll("a", "\\a")); //abac
3 System.out.println("abac".replaceFirst("a", "\\a")); //abac

     結果讓人大吃一驚,用了這么多年的替換,竟然有點蒙了。

     源字符串是"abac",然后我們找到"a",把它替換成\a,由於\是java轉義字符,所以想表達\a必須寫成"\\a",第一個反斜線將第二個反斜線轉義成普通字符串。

     三個替換表達式,只有第一個replace函數的結果是正確的,問題出在哪呢?

     replaceAll和replaceFirst要求第一個參數是正則表達式,"a"既能理解成字符串a,也可以理解成正則表達式a,所以第一個參數沒問題。

     問題就出在第二個參數上,如果讀者仔細閱讀replaceAll函數的注釋,會發現有如下說明:

Note that backslashes (\) and dollar signs ($) in the replacement string may cause the results to be different than if it were being treated as a literal replacement string; see Matcher.replaceAll. Use java.util.regex.Matcher.quoteReplacement to suppress the special meaning of these characters, if desired.

     由於replaceAll和replaceFirst的第一個參數是正則,所以我們可以在第二個參數中做些小花樣,比如有這樣一個需求:把源字符串中的a替換成a后邊緊鄰的字符,代碼如下:

1 System.out.println("abac".replaceAll("a(\\w)", "$1$1")); //bbcc
2 System.out.println("abac".replaceFirst("a(\\w)", "$1$1")); //bbac

     正則的含義假設讀者可以讀懂,可以看出,在第二個參數中,可以用$符號獲取分組的內容,本例中用$1取到了第一個分組的內容,即a后邊緊鄰的字符。

     因此,$符號在第二個參數中是有特殊含義的,亂寫會報錯:

1 System.out.println("abac".replaceAll("a(\\w)", "$")); //Exception in thread "main" java.lang.StringIndexOutOfBoundsException: String index out of range: 1

     那假如我就想替換成$呢?這就需要轉義字符:

1 System.out.println("abac".replaceAll("a", "\\$")); //$b$c

     到這,讀者可能會恍然大悟,原來反斜線在第二個參數中也有特殊含義(轉義),所以如果我們想表達反斜線,就必須再轉義一次:

1 System.out.println("abac".replaceAll("a", "\\\\a")); //\ab\ac
2 System.out.println("abac".replaceFirst("a", "\\\\a")); //\abac

     簡單理解一下,"\\\\a"中前邊的反斜線分別轉義后邊的反斜線,讓后邊的反斜線就是普通字符串,這樣在java內存中看到的字符串就是"\\a",然后replaceAll函數在處理時,再用前邊的反斜線轉義后邊的反斜線,來表達后邊的反斜線就是普通字符串,不是用來轉義$的,最終內存中的字符串就是"\a",這樣才可以成功將a替換成\a。

     轉義的問題確實糾結,通過本文,筆者希望讀者以后使用這些函數時,能夠保持清醒,能夠意識到參數中的特殊字符,避免寫出定時炸彈。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM