正則表達式(Regular Expressions)
正則表達式在其他編程語言中的應用非常廣泛,網上資料也非常多,而網上在ABAP語言中應用的資料卻很少,盡管各語言中正則表達式語法知識都很類似,但仍然有一些區別,本文主要是簡單介紹一下其基本語法。總結一下,方便大家查閱。
歡迎轉載,請注明出處,文中不足之處還望指正。(Email:hubin0809@126.com)
一、簡要認識
正則表達式就是用一個“字符串”來描述一個特征,然后去驗證另一個“字符串”是否符合這個特征。比如表達式“ab+” 描述的特征是“一個 'a' 和任意個 'b' ”,那么 'ab', 'abb', 'abbbbbbbbbb' 都符合這個特征。
正則表達式可以用來:(1)驗證字符串是否符合指定特征,比如驗證是否是合法的郵件地址。(2)用來查找字符串,從一個長的文本中查找符合指定特征的字符串,比查找固定字符串更加靈活方便。(3)用來替換,比普通的替換更強大。
舉例
DATA: matcher TYPE REF TO cl_abap_matcher, |
輸出結果:X |
解釋:
1> '\w+@\w+(\.\w+)+'中 \w 是表示任意一個字母或數字或下划線,+ 表示前面字符個數為一個或多個,@即為’@’字符
2> matcher參照類cl_abap_matcher,match有匹配的意思,調用靜態方法create創建了匹配的對(暫時這么理解,好吧,我承認我不知道怎么形容),然后調用match方法,返回值中’X’表示匹配,SPACE表示不匹配。
具體含義后面會講到,本程序主要是驗證郵件地址是否合法。
二、語法規則
pattern模板,text要匹配的字符,match匹配結果,’X’表示匹配,SPACE表示不匹配。
1、 普通字符
字母、數字、漢字、下划線、以及后面沒有特殊定義的標點符號,都是"普通字符"。表達式中的普通字符,在匹配一個字符串的時候,匹配與之相同的一個字符。
Pattern |
Text |
Match |
A |
A |
X |
A |
a |
- |
A |
AB |
- |
AB |
AB |
X |
2、 轉義字符
一些不便書寫的字符,采用在前面加 "\" 的方法。例如’.’
表達式 |
可匹配 |
\\ |
代表 "\" 本身 |
\. |
匹配小數點(.)本身 |
\Q...\E |
中間的字符作為普通字符 |
Pattern |
Text |
Match |
.\. |
f. |
X |
.\. |
f\f |
- |
\w\d |
\w\d |
- |
\\w\\d |
\w\d |
X |
\Q\w\d\E |
\w\d |
X |
3、 能夠與 '多種字符' 匹配的表達式
正則表達式中的一些表示方法,可以匹配 '多種字符' 其中的任意一個字符。比如,表達式 "\d" 可以匹配任意一個數字。雖然可以匹配其中任意字符,但是只能是一個,不是多個。這就好比玩撲克牌時候,大小王可以代替任意一張牌,但是只能代替一張牌。(沒玩過?好吧,去玩qq夠級吧,ok,信息泄露了,承認我是山東人)
表達式 |
可匹配 |
\d |
任意一個數字,0~9 中的任意一個 |
\w |
任意一個字母或數字或下划線,也就是 A~Z,a~z,0~9,_ 中任意一個 |
\s |
包括空格、制表符、換頁符等空白字符的其中任意一個 |
. |
小數點可以匹配除了換行符(\n)以外的任意一個字符 |
Pattern |
Text |
Match |
\d |
9 |
X |
\d |
25 |
- |
\d\d |
25 |
X |
\w |
A |
X |
\s |
\n |
X |
... |
4zF |
X |
4、 自定義能夠與 '多種字符' 匹配的表達式
使用方括號 [ ] 包含一系列字符,能夠匹配其中任意一個字符。用 [^ ] 包含一系列字符,則能夠匹配其中字符之外的任意一個字符。同樣的道理,雖然可以匹配其中任意一個,但是只能是一個,不是多個。
表達式 |
可匹配 |
[ab5@] |
匹配 "a" 或 "b" 或 "5" 或 "@" |
[^abc] |
匹配 "a","b","c" 之外的任意一個字符 |
[f-k] |
匹配 "f"~"k" 之間的任意一個字母 |
[^A-F0-3] |
匹配 "A"~"F","0"~"3" 之外的任意一個字符 |
Pattern |
Text |
Match |
[abc] |
a |
X |
[abc] |
abc |
- |
[^abc]b |
cb |
- |
[a-g]b |
cb |
X |
5、 支持的 POSIX 字符集合
POSIX 字符集合 |
可匹配 |
[:alnum:] |
任何一個字母或數字(A - Z, a - z, 0 - 9) |
[:alpha:] |
任何一個字母(A - Z, a - z) |
[:cntrl:] |
任何一個控制字符(\x00 – \x1F, \x7F) |
[:digit:] |
任何一個數字(0 – 9) |
[:space:] |
任何一個空白字符(\x09 – \x0D, \x20) |
[:graph:] |
任何一個可顯示的 ASCII 字符,不包含空格 |
[:lower:] |
任何一個小寫字母(a – z) |
[:upper:] |
任何一個大寫字母(A – Z) |
[:punct:] |
可顯示字符 [:print:] 中除去字母數字 [:alnum:] |
[:blank:] |
空格或者制表符(\x20, \x09) |
個人感覺意義不大,可能對一些控制字符有用吧,了解。
Pattern |
Text |
Match |
[[:alnum:]] |
a |
X |
[:lower:][:digit:] |
a9 |
X |
[[:lower:][:digit:]] |
a9 |
- |
[[:lower:][:digit:]] |
b |
X |
6、 修飾匹配次數的特殊符號
前面講到的表達式,無論是只能匹配一種字符的表達式,還是可以匹配多種字符其中任意一個的表達式,都只能匹配一次。如果使用表達式再加上修飾匹配次數的特殊符號,那么不用重復書寫表達式就可以重復匹配,否則會累死的。
表達式 |
作用 |
{n} |
表達式重復n次,比如:"\w{2}" 相當於 "\w\w";"a{5}" 相當於 "aaaaa" |
{m,n} |
表達式至少重復m次,最多重復n次,比如:"ba{1,3}"可以匹配 "ba"或"baa"或"baaa" |
{m,} |
表達式至少重復m次,比如:"\w\d{2,}"可以匹配 "a12","_456","M12344"... |
? |
匹配表達式0次或者1次,相當於 {0,1},比如:"a[cd]?"可以匹配 "a","ac","ad" |
+ |
表達式至少出現1次,相當於 {1,},比如:"a+b"可以匹配 "ab","aab","aaab"... |
* |
表達式不出現或出現任意次,相當於 {0,},比如:"*b"可以匹配 "b","cccb"... |
Pattern |
Text |
Match |
[abc]{3} |
bca |
X |
.{3,5} |
abcd |
X |
\d{5,} |
12345 |
X |
a*b |
b |
X |
a+b |
b |
- |
7、 其他一些代表抽象意義的特殊符號
表達式 |
作用 |
^ |
與字符串開始的地方匹配,不匹配任何字符 |
$ |
與字符串結束的地方匹配,不匹配任何字符 |
\b |
匹配一個單詞邊界,也就是單詞和空格之間的位置,不匹配任何字符 |
| |
左右兩邊表達式之間 "或" 關系,匹配左邊或者右邊 |
( ) |
(1). 在被修飾匹配次數的時候,括號中的表達式可以作為整體被修飾 |
(?: ) |
匹配pattern但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以后使用。 |
進一步的文字說明仍然比較抽象,因此,舉例幫助大家理解。
舉例1:表達式 "^aaa" 在匹配 "xxx aaa xxx" 時,匹配結果是:失敗。因為 "^" 要求與字符串開始的地方匹配,因此,只有當 "aaa" 位於字符串的開頭的時候,"^aaa" 才能匹配,比如:"aaa xxx xxx"。
舉例2:表達式 "aaa$" 在匹配 "xxx aaa xxx" 時,匹配結果是:失敗。因為 "$" 要求與字符串結束的地方匹配,因此,只有當 "aaa" 位於字符串的結尾的時候,"aaa$" 才能匹配,比如:"xxx xxx aaa"。
舉例3:表達式 ".\b." 在匹配 "@@@abc" 時,能夠找到匹配的內容;匹配到的內容是:"@a";匹配到的位置是:開始於2,結束於4。
進一步說明:"\b" 與 "^" 和 "$" 類似,本身不匹配任何字符,但是它要求它在匹配結果中所處位置的左右兩邊,其中一邊是 "\w" 范圍,另一邊是 非"\w" 的范圍。
舉例4:表達式 "\bend\b" 在匹配 "weekend,endfor,end" 時,能夠找到匹配的內容;匹配到的內容是:"end";匹配到的位置是:開始於15,結束於18。
Pattern |
Text |
Match |
(.{1,3})|(.{5,}) |
bcade |
X |
三、正則表達式中的一些高級規則(ABAP部分支持)
1、 匹配次數中的貪婪與非貪婪
貪婪模式:
在使用修飾匹配次數的特殊符號時,有幾種表示方法可以使同一個表達式能夠匹配不同的次數,比如:"{m,n}", "{m,}", "?", "*", "+",具體匹配的次數隨被匹配的字符串而定。這種重復匹配不定次數的表達式在匹配過程中,總是盡可能多的匹配。比如,針對文本 "dxxxdxxxd",舉例如下:
表達式 |
匹配結果 |
(d)(\w+) |
"\w+" 將匹配第一個 "d" 之后的所有字符 "xxxdxxxd" |
(d)(\w+)(d) |
"\w+" 將匹配第一個 "d" 和最后一個 "d" 之間的所有字符 "xxxdxxx"。雖然 "\w+" 也能夠匹配上最后一個 "d",但是為了使整個表達式匹配成功,"\w+" 可以 "讓出" 它本來能夠匹配的最后一個 "d" |
由此可見,"\w+" 在匹配的時候,總是盡可能多的匹配符合它規則的字符。雖然第二個舉例中,它沒有匹配最后一個 "d",但那也是為了讓整個表達式能夠匹配成功。同理,帶 "*" 和 "{m,n}" 的表達式都是盡可能地多匹配,帶 "?" 的表達式在可匹配可不匹配的時候,也是盡可能的 "要匹配"。這種匹配原則就叫作 "貪婪" 模式 。
非貪婪模式:(ABAP暫時不支持,但是最好理解吧)
在修飾匹配次數的特殊符號后再加上一個 "?" 號,則可以使匹配次數不定的表達式盡可能少的匹配,使可匹配可不匹配的表達式,盡可能的 "不匹配"。這種匹配原則叫作 "非貪婪" 模式,也叫作 "勉強" 模式。如果少匹配就會導致整個表達式匹配失敗的時候,與貪婪模式類似,非貪婪模式會最小限度的再匹配一些,以使整個表達式匹配成功。舉例如下,針對文本 "dxxxdxxxd" 舉例:
表達式 |
匹配結果 |
(d)(\w+?) |
"\w+?" 將盡可能少的匹配第一個 "d" 之后的字符,結果是:"\w+?" 只匹配了一個 "x" |
(d)(\w+?)(d) |
為了讓整個表達式匹配成功,"\w+?" 不得不匹配 "xxx" 才可以讓后邊的 "d" 匹配,從而使整個表達式匹配成功。因此,結果是:"\w+?" 匹配 "xxx" |
更多的情況,舉例如下:
舉例1:表達式 "<td>(.*)</td>" 與字符串 "<td><p>aa</p></td> <td><p>bb</p></td>" 匹配時,匹配的結果是:成功;匹配到的內容是 "<td><p>aa</p></td> <td><p>bb</p></td>" 整個字符串, 表達式中的 "</td>" 將與字符串中最后一個 "</td>" 匹配。
舉例2:相比之下,表達式 "<td>(.*?)</td>" 匹配舉例1中同樣的字符串時,將只得到 "<td><p>aa</p></td>", 再次匹配下一個時,可以得到第二個 "<td><p>bb</p></td>"。
2、 反向引用 \1, \2
表達式在匹配時,表達式引擎會將小括號 "( )" 包含的表達式所匹配到的字符串記錄下來。在獲取匹配結果的時候,小括號包含的表達式所匹配到的字符串可以單獨獲取。這一點,在前面的舉例中,已經多次展示了。在實際應用場合中,當用某種邊界來查找,而所要獲取的內容又不包含邊界時,必須使用小括號來指定所要的范圍。比如前面的 "<td>(.*?)</td>"。
其實,"小括號包含的表達式所匹配到的字符串" 不僅是在匹配結束后才可以使用,在匹配過程中也可以使用。表達式后邊的部分,可以引用前面 "括號內的子匹配已經匹配到的字符串"。引用方法是 "\" 加上一個數字。"\1" 引用第1對括號內匹配到的字符串,"\2" 引用第2對括號內匹配到的字符串……以此類推,如果一對括號內包含另一對括號,則外層的括號先排序號。換句話說,哪一對的左括號 "(" 在前,那這一對就先排序號。
舉例如下:
舉例1:表達式 "('|")(.*?)\1" 在匹配 " 'Hello', "World" " 時,匹配結果是:成功;匹配到的內容是:" 'Hello' "。再次匹配下一個時,可以匹配到 " "World" "。
舉例2:表達式 "(\w)\1{4,}" 在匹配 "aa bbbb abcdefg ccccc 111121111 999999999" 時,匹配結果是:成功;匹配到的內容是 "ccccc"。再次匹配下一個時,將得到 999999999。這個表達式要求 "\w" 范圍的字符至少重復5次,注意與 "\w{5,}" 之間的區別。
舉例3:表達式 "<(\w+)\s*(\w+(=('|").*?\4)?\s*)*>.*?</\1>" 在匹配 "<td id='td1' style="bgcolor:white"></td>" 時,匹配結果是成功。如果 "<td>" 與 "</td>" 不配對,則會匹配失敗;如果改成其他配對,也可以匹配成功。
3、 預搜索
前面的章節中,我講到了幾個代表抽象意義的特殊符號:"^","$","\b"。它們都有一個共同點,那就是:它們本身不匹配任何字符,只是對 "字符串的兩頭" 或者 "字符之間的縫隙" 附加了一個條件。理解到這個概念以后,本節將繼續介紹另外一種對 "兩頭" 或者 "縫隙" 附加條件的,更加靈活的表示方法。
正向預搜索:"(?=xxxxx)","(?!xxxxx)"
格式:"(?=xxxxx)",在被匹配的字符串中,它對所處的 "縫隙" 或者 "兩頭" 附加的條件是:所在縫隙的右側,必須能夠匹配上 xxxxx 這部分的表達式。因為它只是在此作為這個縫隙上附加的條件,所以它並不影響后邊的表達式去真正匹配這個縫隙之后的字符。這就類似 "\b",本身不匹配任何字符。"\b" 只是將所在縫隙之前、之后的字符取來進行了一下判斷,不會影響后邊的表達式來真正的匹配。
舉例1:表達式 "Windows (?=NT|XP)" 在匹配 "Windows 98, Windows NT, Windows 2000" 時,將只匹配 "Windows NT" 中的 "Windows ",其他的 "Windows " 字樣則不被匹配。
舉例2:表達式 "(\w)((?=\1\1\1)(\1))+" 在匹配字符串 "aaa ffffff 999999999" 時,將可以匹配6個"f"的前4個,可以匹配9個"9"的前7個。這個表達式可以讀解成:重復4次以上的字母數字,則匹配其剩下最后2位之前的部分。當然,這個表達式可以不這樣寫,在此的目的是作為演示之用。
格式:"(?!xxxxx)",所在縫隙的右側,必須不能匹配 xxxxx 這部分表達式。
舉例3:表達式 "((?!\bstop\b).)+" 在匹配 "fdjka ljfdl stop fjdsla fdj" 時,將從頭一直匹配到 "stop" 之前的位置,如果字符串中沒有 "stop",則匹配整個字符串。
舉例4:表達式 "do(?!\w)" 在匹配字符串 "done, do, dog" 時,只能匹配 "do"。在本條舉例中,"do" 后邊使用 "(?!\w)" 和使用 "\b" 效果是一樣的。
表達式 |
方向 |
說明 |
(?=xxx) |
正向預搜索(向右) |
正向預搜索,判斷當前位置右側是否能匹配指定表達式 |
(?!xxx) |
正向預搜索否定,判斷當前位置右側是否不能夠匹配指定表達式 |
|
(?<=xxx) |
反向預搜索(向左)[ABAP不支持] |
反向預搜索,判斷當前位置左側是否能夠匹配指定表達式 |
(?<!xxx) |
反向預搜索否定,判斷當前位置左側是否不能夠匹配指定表達式 |
4、 其他補充
1> 在表達式 "\s","\d","\w","\b" 表示特殊意義的同時,其大寫字母表示相反的意義
表達式 |
可匹配 |
\S |
匹配所有非空白字符("\s" 可匹配各個空白字符) |
\D |
匹配所有的非數字字符 |
\W |
匹配所有的字母、數字、下划線以外的字符 |
\B |
匹配非單詞邊界,即左右兩邊都是 "\w" 范圍或者左右兩邊都不是 "\w" 范圍時的字符縫隙 |
2> 在表達式中有特殊意義,需要添加 "\" 才能匹配該字符本身的字符匯總
字符 |
說明 |
^ |
匹配輸入字符串的開始位置。要匹配 "^" 字符本身,請使用 "\^" |
$ |
匹配輸入字符串的結尾位置。要匹配 "$" 字符本身,請使用 "\$" |
( ) |
標記一個子表達式的開始和結束位置。要匹配小括號,請使用 "\(" 和 "\)" |
[ ] |
用來自定義能夠匹配 '多種字符' 的表達式。要匹配中括號,請使用 "\[" 和 "\]" |
{ } |
修飾匹配次數的符號。要匹配大括號,請使用 "\{" 和 "\}" |
. |
匹配除了換行符(\n)以外的任意一個字符。要匹配小數點本身,請使用 "\." |
? |
修飾匹配次數為 0 次或 1 次。要匹配 "?" 字符本身,請使用 "\?" |
+ |
修飾匹配次數為至少 1 次。要匹配 "+" 字符本身,請使用 "\+" |
* |
修飾匹配次數為 0 次或任意次。要匹配 "*" 字符本身,請使用 "\*" |
| |
左右兩邊表達式之間 "或" 關系。匹配 "|" 本身,請使用 "\|" |
四、在ABAP中的應用
規則終於寫完了!其實和其他編程語言規則差不多啦!下面結合ABAP講講怎么使用吧,Let’s GO!
不過需要注意, SAP只能是ECC6或者更高版本才可以使用正則(ABAP supports POSIX regular expressions as of Release 7.00)
在ABAP中定義了兩個類來實現相應功能,分別是
CL_ABAP_REGEX regex就是regular expression的縮寫,里面的方法不是很多,可能用到的也就只有構造方法和REATE_MATCHER這個方法。
CL_ABAP_MATCHER matcher匹配的意思,也就是說所有的匹配規則都和它有關,里面具體方法,se24去查看
其實正則表達式的應用無外乎三種:驗證(是否符合規則)、查找(包含提取)、替換
1、 驗證
實例1
IF CL_ABAP_MATCHER=>MATCHES( PATTERN = '\D+' |
輸出結果:IS NOT NUMBER |
解釋:CL_ABAP_MATCHER有一個靜態方法,直接進行匹配。
2、 查找
實例2
DATA: |
輸出結果:http://www.cnblogs.com/VerySky/admin/EditPosts.aspx?opt=1 |
解釋:
- 創建match實例(創建規則),構造方法中有pattern參數輸入規則,IGNORE_CASE是否忽略大小寫,SIMPLE_REGEX是否使用簡單規則(具體參見F1幫助文檔),
B.在實例中有FIND_ALL(),FIND_NEXT()方法,可以用來查找。
這個方法是不是太麻煩了啊,不急有簡單的方法,其實就是字符串處理中用到的。
實例3
DATA: patt TYPE string VALUE `n.?w`, |
輸出結果: 11 3 24 3 |
實例4
DATA: STR TYPE STRING , |
輸出結果: 我啊 們 |
解釋:大家都知道英文字母是單字節的,中文是雙字節的,但是在ABAP里面用strlen等方法是區別不出單雙字節的,這個實例中講的不失為一個很好的辦法。
3、 替換
實例4
DATA: |
輸出結果: REPLACE BEFORE: hubinshishuibuzhidao REPLACE COUNT IS:2 REPLACE AFTER: hubinshishuibuzhidao |
大家肯定會說了,字符串前后沒有沒替換啊。注意修改的不是W_TEXT本身,他將修改后的值放到了MATCHER->TEXT即match類實例的屬性里面,我們只需令W_TEXT = MATCHER->TEXT即可。
修改后
DATA: W_TEXT = MATCHER->TEXT. |
輸出結果: REPLACE BEFORE: hubinshishuibuzhidao REPLACE COUNT IS:2 REPLACE AFTER: hubinFFFFFFbuzhidao |
同樣這里也有簡單方法,字符串處理中的方法也是支持正則的
實例5
DATA TEXT TYPE STRING VALUE '-dfufdud-'. |
輸出結果: -dfxfdxd- |
4、 方法語句總結
類結
CL_ABAP_MATCHER類里的重要方法
字符串處理中,支持正則的語句
五、補充
這里給出ABAP F1幫助中給出的一個特殊字符的列表,很有用的
Special Characters in Regular Expressions
The following tables summarize the special characters in regular expressions:
Escape character
Special character |
Meaning |
\ |
Escape character for special characters |
Special character for single character strings
Special character |
Meaning |
. |
Placeholder for any single character |
\C |
Placeholder for any single character |
\d |
Placeholder for any single digit |
\D |
Placeholder for any character other than a digit |
\l |
Placeholder for any lower-case letter |
\L |
Placeholder for any character other than a lower-case letter |
\s |
Placeholder for a blank character |
\S |
Placeholder for any character other than a blank character |
\u |
Placeholder for any upper-case letter |
\U |
Placeholder for any character other than an upper-case letter |
\w |
Placeholder for any alphanumeric character including _ |
\W |
Placeholder for any non-alphanumeric character except for _ |
[ ] |
Definition of a value set for single characters |
[^ ] |
Negation of a value set for single characters |
[ - ] |
Definition of a range in a value set for single characters |
[ [:alnum:] ] |
Description of all alphanumeric characters in a value set |
[ [:alpha:] ] |
Description of all letters in a value set |
[ [:blank:] ] |
Description for blank characters and horizontal tabulators in a value set |
[ [:cntrl:] ] |
Description of all control characters in a value set |
[ [:digit:] ] |
Description of all digits in a value set |
[ [:graph:] ] |
Description of all graphic special characters in a value set |
[ [:lower:] ] |
Description of all lower-case letters in a value set |
[ [:print:] ] |
Description of all displayable characters in a value set |
[ [:punct:] ] |
Description of all punctuation characters in a value set |
[ [:space:] ] |
Description of all blank characters, tabulators, and carriage feeds in a value set |
[ [:unicode:] ] |
Description of all Unicode characters in a value set with a code larger than 255 |
[ [:upper:] ] |
Description of all upper-case letters in a value set |
[ [:word:] ] |
Description of all alphanumeric characters in a value set, including _ |
[ [:xdigit:] ] |
Description of all hexadecimal digits in a value set |
\a \f \n \r \t \v |
Diverse platform-specific control characters |
[..] |
Reserved for later enhancements |
[==] |
Reserved for later enhancements |
Special characters for character string patterns
Special character |
Meaning |
{n} |
Concatenation of n single characters |
{n,m} |
Concatenation of at least n and a maximum of m single characters |
{n,m}? |
Reserved for later enhancements |
? |
One or no single characters |
* |
Concatenation of any number of single characters including 'no characters' |
*? |
Reserved for later enhancements |
+ |
Concatenation of any number of single characters excluding 'no characters' |
+? |
Reserved for later enhancements |
| |
Linking of two alternative expressions |
( ) |
Definition of subgroups with registration |
(?: ) |
Definition of subgroups without registration |
\1, \2, \3 ... |
Placeholder for the register of subgroups |
\Q ... \E |
Definition of a string of literal characters |
(? ... ) |
Reserved for later enhancements |
Special characters for search strings
Special character |
Meaning |
^ |
Anchor character for the start of a line |
\A |
Anchor character for the start of a character string |
$ |
Anchor character for the end of a line |
\Z |
Anchor character for the end of a character string |
\< |
Start of a word |
\> |
End of a word |
\b |
Start or end of a word |
\B |
Space between characters within a word |
(?= ) |
Preview condition |
(?! ) |
Negated preview condition |
Special characters for replacement texts
Special character |
Meaning |
$0, $& |
Placeholder for the whole found location |
$1, $2, $3... |
Placeholder for the register of subgroups |
$` |
Placeholder for the text before the found location |
$' |
Placeholder for the text after the found location |
從上面的列表可以看出,ABAP中對“非貪婪模式”(ABAP啊,你不支持啊,你太貪婪了)和“反向預搜索”暫不支持,希望以后能夠趕緊擴展功能吧,畢竟很強大的說。
正則表達式是需要反復修改,最后才能找到最匹配的規則的,為此ABAP Program里也提供了一個,測試用得小程序,SE38里找DEMO_REGEX_TOY運行即可。
在ABAP培訓資料里面有一個很有意思的表達式,大家有興趣可以看一下它能匹配什么文字
^(?=\d)(?:(?:31(?!.(?:0?[2469]|11))|(?:30 |29)(?!.0?2)|29(?=.0?2.(?:(?:(?:1[6-9]|[2 -9]\d)?(?:0[48]|[2468][048]|[13579][26])| (?:(?:16|[2468][048]|[3579][26])00)))(?:\ x20|$))|(?:2[0-8]|1\d|0?[1-9]))([-./])(?: 1[012]|0?[1-9])\1(?:1[6-9]|[2-9]\d)?\d\d( ?:(?=\x20\d)\x20|$))?(((0?[1-9]|1[012])(: [0-5]\d){0,2}(\x20[AP]M))|([01]\d|2[0-3]) (:[0-5]\d){1,2})?$ |
以下附上網上的一些資料:
表達式全集
正則表達式有多種不同的風格。下表是在PCRE中元字符及其在正則表達式上下文中的行為的一個完整列表:
字符 |
描述 |
\ |
將下一個字符標記為一個特殊字符、或一個原義字符、或一個向后引用、或一個八進制轉義符。例如,“ |
^ |
匹配輸入字符串的開始位置。如果設置了RegExp對象的Multiline屬性,^也匹配“ |
$ |
匹配輸入字符串的結束位置。如果設置了RegExp對象的Multiline屬性,$也匹配“ |
* |
匹配前面的子表達式零次或多次。例如,zo*能匹配“ |
+ |
匹配前面的子表達式一次或多次。例如,“ |
? |
匹配前面的子表達式零次或一次。例如,“ |
{n} |
n是一個非負整數。匹配確定的n次。例如,“ |
{n,} |
n是一個非負整數。至少匹配n次。例如,“ |
{n,m} |
m和n均為非負整數,其中n<=m。最少匹配n次且最多匹配m次。例如,“ |
? |
當該字符緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})后面時,匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串,而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如,對於字符串“ |
. |
匹配除“ |
(pattern) |
匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中則使用$0…$9屬性。要匹配圓括號字符,請使用“ |
(?:pattern) |
匹配pattern但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以后使用。這在使用或字符“ |
(?=pattern) |
正向預查,在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如,“ |
(?!pattern) |
負向預查,在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如“ |
x|y |
匹配x或y。例如,“ |
[xyz] |
字符集合。匹配所包含的任意一個字符。例如,“ |
[^xyz] |
負值字符集合。匹配未包含的任意字符。例如,“ |
[a-z] |
字符范圍。匹配指定范圍內的任意字符。例如,“ |
[^a-z] |
負值字符范圍。匹配任何不在指定范圍內的任意字符。例如,“ |
\b |
匹配一個單詞邊界,也就是指單詞和空格間的位置。例如,“ |
\B |
匹配非單詞邊界。“ |
\cx |
匹配由x指明的控制字符。例如,\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則,將c視為一個原義的“ |
\d |
匹配一個數字字符。等價於[0-9]。 |
\D |
匹配一個非數字字符。等價於[^0-9]。 |
\f |
匹配一個換頁符。等價於\x0c和\cL。 |
\n |
匹配一個換行符。等價於\x0a和\cJ。 |
\r |
匹配一個回車符。等價於\x0d和\cM。 |
\s |
匹配任何空白字符,包括空格、制表符、換頁符等等。等價於[\f\n\r\t\v]。 |
\S |
匹配任何非空白字符。等價於[^\f\n\r\t\v]。 |
\t |
匹配一個制表符。等價於\x09和\cI。 |
\v |
匹配一個垂直制表符。等價於\x0b和\cK。 |
\w |
匹配包括下划線的任何單詞字符。等價於“ |
\W |
匹配任何非單詞字符。等價於“ |
\xn |
匹配n,其中n為十六進制轉義值。十六進制轉義值必須為確定的兩個數字長。例如,“ |
\num |
匹配num,其中num是一個正整數。對所獲取的匹配的引用。例如,“ |
\n |
標識一個八進制轉義值或一個向后引用。如果\n之前至少n個獲取的子表達式,則n為向后引用。否則,如果n為八進制數字(0-7),則n為一個八進制轉義值。 |
\nm |
標識一個八進制轉義值或一個向后引用。如果\nm之前至少有nm個獲得子表達式,則nm為向后引用。如果\nm之前至少有n個獲取,則n為一個后跟文字m的向后引用。如果前面的條件都不滿足,若n和m均為八進制數字(0-7),則\nm將匹配八進制轉義值nm。 |
\nml |
如果n為八進制數字(0-3),且m和l均為八進制數字(0-7),則匹配八進制轉義值nml。 |
\un |
匹配n,其中n是一個用四個十六進制數字表示的Unicode字符。例如,\u00A9匹配版權符號(?)。 |
常用的正則表達式
正則表達式用於字符串處理、表單驗證等場合,實用高效。現將一些常用的表達式收集於此,以備不時之需。
用戶名:/^[a-z0-9_-]{3,16}$/
密碼:/^[a-z0-9_-]{6,18}$/
十六進制值:/^#?([a-f0-9]{6}|[a-f0-9]{3})$/
電子郵箱:/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/
URL:/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/
IP 地址:/^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/
HTML 標簽:/^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$/
Unicode編碼中的漢字范圍:/^[u4e00-u9fa5],{0,}$/
匹配中文字符的正則表達式: [\u4e00-\u9fa5]
評注:匹配中文還真是個頭疼的事,有了這個表達式就好辦了
匹配雙字節字符(包括漢字在內):[^\x00-\xff]
評注:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
匹配空白行的正則表達式:\n\s*\r
評注:可以用來刪除空白行
匹配HTML標記的正則表達式:<(\S*?)[^>]*>.*?</\1>|<.*? />
評注:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對於復雜的嵌套標記依舊無能為力
匹配首尾空白字符的正則表達式:^\s*|\s*$
評注:可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式
匹配Email地址的正則表達式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
評注:表單驗證時很實用
匹配網址URL的正則表達式:[a-zA-z]+://[^\s]*
評注:網上流傳的版本功能很有限,上面這個基本可以滿足需求
匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下划線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評注:表單驗證時很實用
匹配國內電話號碼:\d{3}-\d{8}|\d{4}-\d{7}
評注:匹配形式如 0511-4405222 或 021-87888822
匹配騰訊QQ號:[1-9][0-9]{4,}
評注:騰訊QQ號從10000開始
匹配中國大陸郵政編碼:[1-9]\d{5}(?!\d)
評注:中國大陸郵政編碼為6位數字
匹配身份證:\d{15}|\d{18}
評注:中國大陸的身份證為15位或18位
匹配ip地址:\d+\.\d+\.\d+\.\d+
評注:提取ip地址時有用
匹配特定數字:
^[1-9]\d*$ //匹配正整數
^-[1-9]\d*$ //匹配負整數
^-?[1-9]\d*$ //匹配整數
^[1-9]\d*|0$ //匹配非負整數(正整數 + 0)
^-[1-9]\d*|0$ //匹配非正整數(負整數 + 0)
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ //匹配正浮點數
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ //匹配負浮點數
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ //匹配浮點數
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ //匹配非負浮點數(正浮點數 + 0)
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ //匹配非正浮點數(負浮點數 + 0)
評注:處理大量數據時有用,具體應用時注意修正
匹配特定字符串:
^[A-Za-z]+$ //匹配由26個英文字母組成的字符串
^[A-Z]+$ //匹配由26個英文字母的大寫組成的字符串
^[a-z]+$ //匹配由26個英文字母的小寫組成的字符串
^[A-Za-z0-9]+$ //匹配由數字和26個英文字母組成的字符串
^\w+$ //匹配由數字、26個英文字母或者下划線組成的字符串
如何寫出高效率的正則表達式
如果純粹是為了挑戰自己的正則水平,用來實現一些特效(例如使用正則表達式計算質數、解線性方程),效率不是問題;如果所寫的正則表達式只是為了滿足一兩次、幾十次的運行,優化與否區別也不太大。但是,如果所寫的正則表達式會百萬次、千萬次地運行,效率就是很大的問題了。我這里總結了幾條提升正則表達式運行效率的經驗(工作中學到的,看書學來的,自己的體會),貼在這里。如果您有其它的經驗而這里沒有提及,歡迎賜教。
為行文方便,先定義兩個概念。
誤匹配:指正則表達式所匹配的內容范圍超出了所需要范圍,有些文本明明不符合要求,但是被所寫的正則式“擊中了”。例如,如果使用\d{11}來匹配11位的手機號,\d{11}不單能匹配正確的手機號,它還會匹配98765432100這樣的明顯不是手機號的字符串。我們把這樣的匹配稱之為誤匹配。
漏匹配:指正則表達式所匹配的內容所規定的范圍太狹窄,有些文本確實是所需要的,但是所寫的正則沒有將這種情況囊括在內。例如,使用\d{18}來匹配18位的身份證號碼,就會漏掉結尾是字母X的情況。
寫出一條正則表達式,既可能只出現誤匹配(條件寫得極寬松,其范圍大於目標文本),也可能只出現漏匹配(只描述了目標文本中多種情況種的一種),還可能既有誤匹配又有漏匹配。例如,使用\w+\.com來匹配.com結尾的域名,既會誤匹配abc_.com這樣的字串(合法的域名中不含下划線,\w包含了下划線這種情況),又會漏掉ab-c.com這樣的域名(合法域名中可以含中划線,但是\w不匹配中划線)。
精准的正則表達式意味着既無誤匹配且無漏匹配。當然,現實中存在這樣的情況:只能看到有限數量的文本,根據這些文本寫規則,但是這些規則將會用到海量的文本中。這種情況下,盡可能地(如果不是完全地)消除誤匹配以及漏匹配,並提升運行效率,就是我們的目標。本文所提出的經驗,主要是針對這種情況。
掌握語法細節。正則表達式在各種語言中,其語法大致相同,細節各有千秋。明確所使用語言的正則的語法的細節,是寫出正確、高效正則表達式的基礎。例如,perl中與\w等效的匹配范圍是[a-zA-Z0-9_];perl正則式不支持肯定逆序環視中使用可變的重復(variable repetition inside lookbehind,例如(?<=.*)abc),但是.Net語法是支持這一特性的;又如,JavaScript連逆序環視(Lookbehind,如(?<=ab)c)都不支持,而perl和python是支持的。《精通正則表達式》第3章《正則表達式的特性和流派概覽》明確地列出了各大派系正則的異同,這篇文章也簡要地列出了幾種常用語言、工具中正則的比較。對於具體使用者而言,至少應該詳細了解正在使用的那種工作語言里正則的語法細節。
先粗后精,先加后減。使用正則表達式語法對於目標文本進行描述和界定,可以像畫素描一樣,先大致勾勒出框架,再逐步在局步實現細節。仍舉剛才的手機號的例子,先界定\d{11},總不會錯;再細化為1[358]\d{9},就向前邁了一大步(至於第二位是不是3、5、8,這里無意深究,只舉這樣一個例子,說明逐步細化的過程)。這樣做的目的是先消除漏匹配(剛開始先盡可能多地匹配,做加法),然后再一點一點地消除誤匹配(做減法)。這樣有先有后,在考慮時才不易出錯,從而向“不誤不漏”這個目標邁進。
留有余地。所能看到的文本sample是有限的,而待匹配檢驗的文本是海量的,暫時不可見的。對於這樣的情況,在寫正則表達式時要跳出所能見到的文本的圈子,開拓思路,作出“戰略性前瞻”。例如,經常收到這樣的垃圾短信:“發*票”、“發#漂”。如果要寫規則屏蔽這樣煩人的垃圾短信,不但要能寫出可以匹配當前文本的正則表達式 發[*#](?:票|漂),還要能夠想到 發.(?:票|漂|飄)之類可能出現的“變種”。這在具體的領域或許會有針對性的規則,不多言。這樣做的目的是消除漏匹配,延長正則表達式的生命周期。
明確。具體說來,就是謹慎用點號這樣的元字符,盡可能不用星號和加號這樣的任意量詞。只要能確定范圍的,例如\w,就不要用點號;只要能夠預測重復次數的,就不要用任意量詞。例如,寫析取twitter消息的腳本,假設一條消息的xml正文部分結構是<span class=”msg”>…</span>且正文中無尖括號,那么<span class=”msg”>[^<]{1,480}</span>這種寫法的思路要好於<span class=”msg”>.*</span>,原因有二:一是使用[^<],它保證了文本的范圍不會超出下一個小於號所在的位置;二是明確長度范圍,{1,480},其依據是一條twitter消息大致能的字符長度范圍。當然,480這個長度是否正確還可推敲,但是這種思路是值得借鑒的。說得狠一點,“濫用點號、星號和加號是不環保、不負責任的做法”。
不要讓稻草壓死駱駝。每使用一個普通括號()而不是非捕獲型括號(?:…),就會保留一部分內存等着你再次訪問。這樣的正則表達式、無限次地運行次數,無異於一根根稻草的堆加,終於能將駱駝壓死。養成合理使用(?:…)括號的習慣。
寧簡勿繁。將一條復雜的正則表達式拆分為兩條或多條簡單的正則表達式,編程難度會降低,運行效率會提升。例如用來消除行首和行尾空白字符的正則表達式s/^\s+|\s+$//g;,其運行效率理論上要低於s/^\s+//g; s/\s+$//g; 。這個例子出自《精通正則表達式》第五章,書中對它的評論是“它幾乎總是最快的,而且顯然最容易理解”。既快又容易理解,何樂而不為?工作中我們還有其它的理由要將C==(A|B)這樣的正則表達式拆為A和B兩條表達式分別執行。例如,雖然A和B這兩種情況只要有一種能夠擊中所需要的文本模式就會成功匹配,但是如果只要有一條子表達式(例如A)會產生誤匹配,那么不論其它的子表達式(例如B)效率如何之高,范圍如何精准,C的總體精准度也會因A而受到影響。
巧妙定位。有時候,我們需要匹配的the,是作為單詞的the(兩邊有空格),而不是作為單詞一部分的t-h-e的有序排列(例如together中的the)。在適當的時候用上^,$,\b等等定位錨點,能有效提升找到成功匹配、淘汰不成功匹配的效率。
附上資料:
1、本文word版:http://115.com/file/c2fac2o9
2、正則表達式ABAP官方資料:http://115.com/file/beucnm53
3、正則表達式查閱文檔:http://115.com/file/c2fackc0