java正則表達--非捕獲組詳解

本文轉載自查看原文 2013-02-17 20:08 2756 java點滴

這幾天看了下正則表達式，對非捕獲組(non-capturing)進行下總結。

主要總結 1個 + 2組一共5個。
(?:X) (?=X) (?<=X) (?!X) (?<!X)

這四個非捕獲組用於匹配表達式X，但是不包含表達式的文本。

(?=X )	零寬度正先行斷言。僅當子表達式 X 在此位置的右側匹配時才繼續匹配。例如，/w+(?=/d) 與后跟數字的單詞匹配，而不與該數字匹配。此構造不會回溯。
(?!X)	零寬度負先行斷言。僅當子表達式 X 不在此位置的右側匹配時才繼續匹配。例如，例如，/w+(?!/d) 與后不跟數字的單詞匹配，而不與該數字匹配。
(?<=X)	零寬度正后發斷言。僅當子表達式 X 在此位置的左側匹配時才繼續匹配。例如，(?<=19)99 與跟在 19 后面的 99 的實例匹配。此構造不會回溯。
(?<!X)	零寬度負后發斷言。僅當子表達式 X 不在此位置的左側匹配時才繼續匹配。例如，(?<!19)99 與不跟在 19 后面的 99 的實例匹配

一、先從(?:)非捕獲組說起。
下面由一個例子引出非捕獲組。

有兩個金額：8899￥和 6688$ 。顯然，前一個是8899元的人民幣，后一個是6688元的美元。我現在需要一個正則，要求提煉出它們的貨幣金額和貨幣種類。正則可以這寫：(\\d)+([￥$])$ (在java中測試，所以多了轉義字符'\')
測試程序如下：

     Pattern p = Pattern.compile("(\\d+)([￥$])$");  
     String str = "8899￥";  
     Matcher m = p.matcher(str);  
     if(m.matches()){  
      System.out.println("貨幣金額: " + m.group(1));  
      System.out.println("貨幣種類: " + m.group(2));  
     }

輸出結果為：

貨幣金額: 8899
貨幣種類: ￥

OK,滿足了要求。這里的正則分成了兩個組，一個是(\\d+)，一個是([￥$])，前一個組匹配貨幣金額，后一個組匹配貨幣種類。

現在，我需要這個正則可以匹配浮點數。如8899.56￥。我們都知道，現在少於一元錢基本上買不到東西了，所以我希望忽略小數部分，正則還是提煉出 8899 和￥。
那么正則如下：
[code="java"](\\d+)(\\.?)(\\d+)([￥$])$[/code]
這里用括號分了四組，所以要輸出貨幣金額的整數部分和貨幣種類，要分別輸了group(1),group(4)了。如果輸出部分和正則是分開的，我希望只修改正則而不去修改輸出部分的代碼，也就是還是用group(1)，group(2)作為輸出。由此可以引出非捕獲組(?:)。
把前面的正則修改為：
[code="java"](\\d+)(?:\\.?)(?:\\d+)([￥$])$[/code]
這樣，還是用group(1),group(2)做為輸出，同樣輸出了 8899 和￥
這個正則的中間兩個組用到的就是非捕獲組（?:），它可以理解為只分組而不捕獲。

二、(?=)和(?<=)
有的資料把它們叫做肯定式向前查找和肯定式向后查找；
有的資料也叫做肯定順序環視和肯定逆序環視。

1、姑且不理它們的名稱，看下面的例子：

Pattern p = Pattern.compile("[0-9a-z]{2}(?=aa)");  

   String str = "12332aa438aaf";  
   
   Matcher m = p.matcher(str);  
   while(m.find()){  
     System.out.println(m.group());  
   }

這段程序輸出32 38

這個正則的意思是：匹配這么一個字符串，它要滿足：是兩位字符（數字，或字母），且后面緊跟着兩個a。

分析一下：
32aa 這個子串滿足這個條件，所以可以匹配到，又因為 (?=) 的部分是不捕獲的，所以輸出的只是 32，不包括aa。同理 38aa 也匹配這個正則，而輸出僅是 38。

再深入看一下:
當str第一次匹配成功輸出 32 后，程序要繼續向后查找是否還有匹配的其它子串。那么這時應該從 32aa 的后一位開始向后查找，還是從 32 的后一位呢？也就是從索引 5 開始還是從 7 開始呢？有人可能想到是從 32aa 的下一位開始往后找，因為 32aa 匹配了正則，所以下一位當然是它的后面也就是從 4 開始。但實際上是從 32 的后一位也就是第一個 a 開始往后找。原因還是 (?=) 是非捕獲的。

查閱API文檔是這么注釋的：(?=X) X, via zero-width positive lookahead

可見zero-width（零寬度）說的就是這個意思。

現在，把字符串寫的更有意思些：str = "aaaaaaaa";
看一下它的輸出： aa aa aa
分析一下：
這個字符串一共有8個a。
第一次匹配比較容易找到，那就是前四個：aaaa ,當然第三和第四個 a 是不捕獲的，所以輸出是第一和第二個a；
接着繼續查找，這時是從第三個a開始，三到六，這4個a區配到了，所以輸出第三和第四個a；
接着繼續查找，這時是從第五個a開始，五到八，這4個a區配到了，所以輸出第五和第六個a；
接着往后查找，這時是從第七個a開始，顯然，第七和第八個a,不滿足正則的匹配條件，查找結束。
我們再延伸一下，剛說的情況的是(?=)放在捕獲的字符串后面，它如果放在前面又是什么結果呢？
例子換成：

Pattern p = Pattern.compile("(?=hopeful)hope");  
    String str = "hopeful";  
    Matcher m = p.matcher(str);  
    while(m.find()){  
      System.out.println(m.group());  
    }

它的輸出是hope。

正則的意思是：是否能匹配hopeful,如果能，則捕獲hopeful中的hope。當然繼續向后查找匹配的子串，是從f開始。
比較一下可以看出，(?=hopeful)hope 和 hope(?=ful),兩個正則的效果其實是一樣的。

2、下面說一下 (?<=)
把正則改一下，
Pattern p = Pattern.compile("(?<=aa)[0-9a-z]{2}");
字符串還是str = "12332aa438aaf";
它的輸出：43。

這個正則的意思是：匹配這么一個字符串，它要滿足：是兩位字符（數字或字母），且前面緊跟的是兩個字母 a 。

同樣，深入一下，把str換成str = "aaaaaaaa";看一下輸出是什么，同樣也是：aa aa aa
分析一下：
第一次匹配不用說，是前四個a，輸出的是第三和第四個a;
繼續向后查找，從第五個a開始，程序發現，第五個和第六個a滿足，因為是兩位字符，且滿足前面緊跟着兩個a(第三和第四個a)。所以匹配成功，輸出第五個和第六個a;
繼續向后查找，從第七個a開始，程序發現，第七個和第八個a滿足，因為是兩位字符，且滿足前面緊跟着兩個a(第五和第六個a)。所以匹配成功，輸出第七和第八個a。查找結束。

三、(?!)和(?<!)
從外觀上看，和前面一組很相似，區別就是把 ‘=’ 換成了 ‘!’
那么意義剛好也是相反的。
[0-9a-z]{2}(?!aa) 意思是：匹配兩個字符，且后面緊跟着的不是aa
(?<=aa)[0-9a-z]{2} 意思是：匹配兩個字符，且前面緊跟着的不是aa
用法和前面講的差不多，這里不再詳述。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【轉】正則捕獲組與非捕獲組正則表達式之非捕獲組 Python 正則表達式捕獲組和非捕獲組 php 正則表達式捕獲組與非捕獲組 Python正則表達式命名捕獲組和非捕獲組正則表達式的捕獲組（Java） Java正則表達式-捕獲組 PHP正則中的捕獲組與非捕獲組正則表達式--捕獲組常用正則表達式捕獲組(分組)