java正則:不包含某個規則字符串【轉】


概述

做日志分析工作的經常需要跟成千上萬的日志條目打交道,為了在龐大的數據量中找到特定模式的數據,常常需要編寫很多復雜的正則表達式。例如枚舉出日志文件中不包含某個特定字符串的條目,找出不以某個特定字符串打頭的條目,等等。

使用否定式前瞻

正則表達式中有前瞻(Lookahead)和后顧(Lookbehind)的概念,這兩個術語非常形象的描述了正則引擎的匹配行為。需要注意一點, 正則表達式中的前和后和我們一般理解的前后有點不同。一段文本,我們一般習慣把文本開頭的方向稱作“前面”,文本末尾方向稱為“后面”。但是對於正則表達式引擎來說,因為它是從文本頭部向尾部開始解析的(可以通過正則選項控制解析方向),因此對於文本尾部方向,稱為“前”,因為這個時候,正則引擎還沒走到那塊,而對文本頭部方向,則稱為“后”,因為正則引擎已經走過了那一塊地方。如下圖所示:

正向前瞻逆向前瞻

所謂的前瞻就是在正則表達式匹配到某個字符的時候,往“尚未解析過的文本”預先看一下,看是不是符合/不符合匹配模式,而后顧,就是在正則引擎已經匹配過的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我們又稱為肯定式匹配和否定式匹配

現代高級正則表達式引擎一般都支持都支持前瞻,對於后顧支持並不是很廣泛,因此我們這里采用否定式前瞻來實現我們的需求。

實現

測試數據:

2009-07-07 04:38:44 127.0.0.1 GET /robots.txt
2009-07-07 04:38:44 127.0.0.1 GET /posts/robotfile.txt
2009-07-08 04:38:44 127.0.0.1 GET /

例如上面這幾條簡單的日志條目,我們想實現兩個目標:

1. 把8號的數據過濾掉

2. 把那些不包含robots.txt字符串的條目給找出來(只要Url中包含robots.txt的都給過濾掉)。

前瞻的語法是:

(?!匹配模式)

我們先來實現第一個目標——匹配不以特定字符串開頭的條目

這里我們因為要排除一段連續的字符串,因此匹配模式非常簡單,就是2009-07-08。實現如下:

^(?!2009-07-08).*?$

Expresso我們可以看到結果確實過濾掉8號的數據。

接下來,我們來實現第二個目標——排除包含特定字符串的條目

按照我們上面寫法,我照葫蘆畫瓢了一下:

^.*?(?!robots\.txt).*?$

這段正則用大白話描述就是:開頭任意字符,然后后面不要跟着robots.txt連續字符串,然后再跟着任意個字符,字符串結尾。

運行測試,結果發現:

image

沒有達到我們想要的效果。這是為什么呢?我們給上面的正則表達式加上兩個捕獲分組調試一下:

^(.*?)(?!robots\.txt)(.*?)$

測試結果:

image

我們看到,第一個分組啥都沒有匹配到,而第二個分組卻匹配了整個字符串。再回過頭來好好分析一下剛才那個正則表達式。實際上,當正則引擎解析到A區 域的時候,就已經開始執行B區域的前瞻工作。這個時候發現當A區域為Null的時候匹配成功——.*本來就允許匹配空字符,前瞻條件又滿足,A區域后面緊 跟着的是“2009”字符串,而並不是robots。因此整個匹配過程成功匹配到所有條目。

image

分析出原因之后我們對上述的正則進行修正,將.*?移入前瞻表達式,如下:

^(?!.*?robots).*$

測試結果:

image

Bingo!

原文出處:點擊前往


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM