replace、replaceAll、replaceFirst這三個函數會java的同學估計都用過,筆者已經用了2年多,可是,我們真的懂他們嗎?
概述一下他們三個的用法:
· replace(CharSequence target, CharSequence replacement),用replacement替換所有的target,兩個參數都是字符串。
· replaceAll(String regex, String replacement),用replacement替換所有的regex匹配項,regex很明顯是個正則表達式,replacement是字符串。
· replaceFirst(String regex, String replacement),基本和replaceAll相同,區別是只替換第一個匹配項。
接下來有個簡單的需求,就是把源字符串中的a替換成\a,代碼如下:
1 System.out.println("abac".replace("a", "\\a")); //\ab\ac 2 System.out.println("abac".replaceAll("a", "\\a")); //abac 3 System.out.println("abac".replaceFirst("a", "\\a")); //abac
結果讓人大吃一驚,用了這么多年的替換,竟然有點蒙了。
源字符串是"abac",然后我們找到"a",把它替換成\a,由於\是java轉義字符,所以想表達\a必須寫成"\\a",第一個反斜線將第二個反斜線轉義成普通字符串。
三個替換表達式,只有第一個replace函數的結果是正確的,問題出在哪呢?
replaceAll和replaceFirst要求第一個參數是正則表達式,"a"既能理解成字符串a,也可以理解成正則表達式a,所以第一個參數沒問題。
問題就出在第二個參數上,如果讀者仔細閱讀replaceAll函數的注釋,會發現有如下說明:
Note that backslashes (\) and dollar signs ($) in the replacement string may cause the results to be different than if it were being treated as a literal replacement string; see Matcher.replaceAll. Use java.util.regex.Matcher.quoteReplacement to suppress the special meaning of these characters, if desired.
由於replaceAll和replaceFirst的第一個參數是正則,所以我們可以在第二個參數中做些小花樣,比如有這樣一個需求:把源字符串中的a替換成a后邊緊鄰的字符,代碼如下:
1 System.out.println("abac".replaceAll("a(\\w)", "$1$1")); //bbcc 2 System.out.println("abac".replaceFirst("a(\\w)", "$1$1")); //bbac
正則的含義假設讀者可以讀懂,可以看出,在第二個參數中,可以用$符號獲取分組的內容,本例中用$1取到了第一個分組的內容,即a后邊緊鄰的字符。
因此,$符號在第二個參數中是有特殊含義的,亂寫會報錯:
1 System.out.println("abac".replaceAll("a(\\w)", "$")); //Exception in thread "main" java.lang.StringIndexOutOfBoundsException: String index out of range: 1
那假如我就想替換成$呢?這就需要轉義字符:
1 System.out.println("abac".replaceAll("a", "\\$")); //$b$c
到這,讀者可能會恍然大悟,原來反斜線在第二個參數中也有特殊含義(轉義),所以如果我們想表達反斜線,就必須再轉義一次:
1 System.out.println("abac".replaceAll("a", "\\\\a")); //\ab\ac 2 System.out.println("abac".replaceFirst("a", "\\\\a")); //\abac
簡單理解一下,"\\\\a"中前邊的反斜線分別轉義后邊的反斜線,讓后邊的反斜線就是普通字符串,這樣在java內存中看到的字符串就是"\\a",然后replaceAll函數在處理時,再用前邊的反斜線轉義后邊的反斜線,來表達后邊的反斜線就是普通字符串,不是用來轉義$的,最終內存中的字符串就是"\a",這樣才可以成功將a替換成\a。
轉義的問題確實糾結,通過本文,筆者希望讀者以后使用這些函數時,能夠保持清醒,能夠意識到參數中的特殊字符,避免寫出定時炸彈。