【ABAP正則表達式】正則表達式在ABAP中的應用

本文轉載自查看原文 2012-08-31 22:10 6003 ABAP

正則表達式（Regular Expressions）

正則表達式在其他編程語言中的應用非常廣泛，網上資料也非常多，而網上在ABAP語言中應用的資料卻很少，盡管各語言中正則表達式語法知識都很類似，但仍然有一些區別，本文主要是簡單介紹一下其基本語法。總結一下，方便大家查閱。

歡迎轉載，請注明出處，文中不足之處還望指正。（Email：hubin0809@126.com）

一、簡要認識

正則表達式就是用一個“字符串”來描述一個特征，然后去驗證另一個“字符串”是否符合這個特征。比如表達式“ab+” 描述的特征是“一個 'a' 和任意個 'b' ”，那么 'ab', 'abb', 'abbbbbbbbbb' 都符合這個特征。

正則表達式可以用來：（1）驗證字符串是否符合指定特征，比如驗證是否是合法的郵件地址。（2）用來查找字符串，從一個長的文本中查找符合指定特征的字符串，比查找固定字符串更加靈活方便。（3）用來替換，比普通的替換更強大。

舉例

DATA: matcher TYPE REF TO cl_abap_matcher,
      match   TYPE c LENGTH 1.
matcher = cl_abap_matcher=>create( pattern     = '\w+@\w+(\.\w+)+'
                                   text        = 'hubin0809@126.com' ).
match = matcher->match( ).
WRITE match.

輸出結果：X

解釋：

1> '\w+@\w+(\.\w+)+'中 \w 是表示任意一個字母或數字或下划線，+ 表示前面字符個數為一個或多個，@即為’@’字符

2> matcher參照類cl_abap_matcher，match有匹配的意思，調用靜態方法create創建了匹配的對（暫時這么理解，好吧，我承認我不知道怎么形容），然后調用match方法，返回值中’X’表示匹配，SPACE表示不匹配。

具體含義后面會講到，本程序主要是驗證郵件地址是否合法。

二、語法規則

pattern模板，text要匹配的字符，match匹配結果，’X’表示匹配，SPACE表示不匹配。

1、 普通字符

字母、數字、漢字、下划線、以及后面沒有特殊定義的標點符號，都是"普通字符"。表達式中的普通字符，在匹配一個字符串的時候，匹配與之相同的一個字符。

Pattern	Text	Match
A	A	X
A	a	-
A	AB	-
AB	AB	X

2、 轉義字符

一些不便書寫的字符，采用在前面加 "\" 的方法。例如’.’

表達式	可匹配
\\	代表 "\" 本身
\.	匹配小數點（.）本身
\Q...\E	中間的字符作為普通字符

Pattern	Text	Match
.\.	f.	X
.\.	f\f	-
\w\d	\w\d	-
\\w\\d	\w\d	X
\Q\w\d\E	\w\d	X

3、 能夠與 '多種字符' 匹配的表達式

正則表達式中的一些表示方法，可以匹配 '多種字符' 其中的任意一個字符。比如，表達式 "\d" 可以匹配任意一個數字。雖然可以匹配其中任意字符，但是只能是一個，不是多個。這就好比玩撲克牌時候，大小王可以代替任意一張牌，但是只能代替一張牌。（沒玩過？好吧，去玩qq夠級吧，ok，信息泄露了，承認我是山東人）

表達式	可匹配
\d	任意一個數字，0~9 中的任意一個
\w	任意一個字母或數字或下划線，也就是 A~Z,a~z,0~9,_ 中任意一個
\s	包括空格、制表符、換頁符等空白字符的其中任意一個
.	小數點可以匹配除了換行符（\n）以外的任意一個字符

Pattern	Text	Match
\d	9	X
\d	25	-
\d\d	25	X
\w	A	X
\s	\n	X
...	4zF	X

4、 自定義能夠與 '多種字符' 匹配的表達式

使用方括號 [ ] 包含一系列字符，能夠匹配其中任意一個字符。用 [^ ] 包含一系列字符，則能夠匹配其中字符之外的任意一個字符。同樣的道理，雖然可以匹配其中任意一個，但是只能是一個，不是多個。

表達式	可匹配
[ab5@]	匹配 "a" 或 "b" 或 "5" 或 "@"
[^abc]	匹配 "a","b","c" 之外的任意一個字符
[f-k]	匹配 "f"~"k" 之間的任意一個字母
[^A-F0-3]	匹配 "A"~"F","0"~"3" 之外的任意一個字符

Pattern	Text	Match
[abc]	a	X
[abc]	abc	-
[^abc]b	cb	-
[a-g]b	cb	X

5、 支持的 POSIX 字符集合

POSIX 字符集合	可匹配
[:alnum:]	任何一個字母或數字（A - Z, a - z, 0 - 9）
[:alpha:]	任何一個字母（A - Z, a - z）
[:cntrl:]	任何一個控制字符（\x00 – \x1F, \x7F）
[:digit:]	任何一個數字（0 – 9）
[:space:]	任何一個空白字符（\x09 – \x0D, \x20）
[:graph:]	任何一個可顯示的 ASCII 字符，不包含空格
[:lower:]	任何一個小寫字母（a – z）
[:upper:]	任何一個大寫字母（A – Z）
[:punct:]	可顯示字符 [:print:] 中除去字母數字 [:alnum:]
[:blank:]	空格或者制表符（\x20, \x09）

個人感覺意義不大，可能對一些控制字符有用吧，了解。

Pattern	Text	Match
[[:alnum:]]	a	X
[:lower:][:digit:]	a9	X
[[:lower:][:digit:]]	a9	-
[[:lower:][:digit:]]	b	X

6、 修飾匹配次數的特殊符號

前面講到的表達式，無論是只能匹配一種字符的表達式，還是可以匹配多種字符其中任意一個的表達式，都只能匹配一次。如果使用表達式再加上修飾匹配次數的特殊符號，那么不用重復書寫表達式就可以重復匹配，否則會累死的。

表達式	作用
{n}	表達式重復n次，比如："\w{2}" 相當於 "\w\w"；"a{5}" 相當於 "aaaaa"
{m,n}	表達式至少重復m次，最多重復n次，比如："ba{1,3}"可以匹配 "ba"或"baa"或"baaa"
{m,}	表達式至少重復m次，比如："\w\d{2,}"可以匹配 "a12","_456","M12344"...
?	匹配表達式0次或者1次，相當於 {0,1}，比如："a[cd]?"可以匹配 "a","ac","ad"
+	表達式至少出現1次，相當於 {1,}，比如："a+b"可以匹配 "ab","aab","aaab"...
*	表達式不出現或出現任意次，相當於 {0,}，比如："*b"可以匹配 "b","cccb"...

Pattern	Text	Match
[abc]{3}	bca	X
.{3,5}	abcd	X
\d{5,}	12345	X
a*b	b	X
a+b	b	-

7、 其他一些代表抽象意義的特殊符號

表達式	作用
^	與字符串開始的地方匹配，不匹配任何字符
$	與字符串結束的地方匹配，不匹配任何字符
\b	匹配一個單詞邊界，也就是單詞和空格之間的位置，不匹配任何字符
\|	左右兩邊表達式之間 "或" 關系，匹配左邊或者右邊
( )	(1). 在被修飾匹配次數的時候，括號中的表達式可以作為整體被修飾 (2). 取匹配結果的時候，括號中的表達式匹配到的內容可以被單獨得到
(?: )	匹配pattern但不獲取匹配結果，也就是說這是一個非獲取匹配，不進行存儲供以后使用。

進一步的文字說明仍然比較抽象，因此，舉例幫助大家理解。

    舉例1：表達式 "^aaa" 在匹配 "xxx aaa xxx" 時，匹配結果是：失敗。因為 "^" 要求與字符串開始的地方匹配，因此，只有當 "aaa" 位於字符串的開頭的時候，"^aaa" 才能匹配，比如："aaa xxx xxx"。

    舉例2：表達式 "aaa$" 在匹配 "xxx aaa xxx" 時，匹配結果是：失敗。因為 "$" 要求與字符串結束的地方匹配，因此，只有當 "aaa" 位於字符串的結尾的時候，"aaa$" 才能匹配，比如："xxx xxx aaa"。

    舉例3：表達式 ".\b." 在匹配 "@@@abc" 時，能夠找到匹配的內容；匹配到的內容是："@a"；匹配到的位置是：開始於2，結束於4。
    進一步說明："\b" 與 "^" 和 "$" 類似，本身不匹配任何字符，但是它要求它在匹配結果中所處位置的左右兩邊，其中一邊是 "\w" 范圍，另一邊是非"\w" 的范圍。

    舉例4：表達式 "\bend\b" 在匹配 "weekend,endfor,end" 時，能夠找到匹配的內容；匹配到的內容是："end"；匹配到的位置是：開始於15，結束於18。

Pattern	Text	Match
(.{1,3})\|(.{5,})	bcade	X

三、正則表達式中的一些高級規則(ABAP部分支持)

1、匹配次數中的貪婪與非貪婪

貪婪模式：

在使用修飾匹配次數的特殊符號時，有幾種表示方法可以使同一個表達式能夠匹配不同的次數，比如："{m,n}", "{m,}", "?", "*", "+"，具體匹配的次數隨被匹配的字符串而定。這種重復匹配不定次數的表達式在匹配過程中，總是盡可能多的匹配。比如，針對文本 "dxxxdxxxd"，舉例如下：

表達式	匹配結果
(d)(\w+)	"\w+" 將匹配第一個 "d" 之后的所有字符 "xxxdxxxd"
(d)(\w+)(d)	"\w+" 將匹配第一個 "d" 和最后一個 "d" 之間的所有字符 "xxxdxxx"。雖然 "\w+" 也能夠匹配上最后一個 "d"，但是為了使整個表達式匹配成功，"\w+" 可以 "讓出" 它本來能夠匹配的最后一個 "d"

由此可見，"\w+" 在匹配的時候，總是盡可能多的匹配符合它規則的字符。雖然第二個舉例中，它沒有匹配最后一個 "d"，但那也是為了讓整個表達式能夠匹配成功。同理，帶 "*" 和 "{m,n}" 的表達式都是盡可能地多匹配，帶 "?" 的表達式在可匹配可不匹配的時候，也是盡可能的 "要匹配"。這種匹配原則就叫作 "貪婪" 模式。

非貪婪模式：（ABAP暫時不支持，但是最好理解吧）

在修飾匹配次數的特殊符號后再加上一個 "?" 號，則可以使匹配次數不定的表達式盡可能少的匹配，使可匹配可不匹配的表達式，盡可能的 "不匹配"。這種匹配原則叫作 "非貪婪" 模式，也叫作 "勉強" 模式。如果少匹配就會導致整個表達式匹配失敗的時候，與貪婪模式類似，非貪婪模式會最小限度的再匹配一些，以使整個表達式匹配成功。舉例如下，針對文本 "dxxxdxxxd" 舉例：

表達式	匹配結果
(d)(\w+?)	"\w+?" 將盡可能少的匹配第一個 "d" 之后的字符，結果是："\w+?" 只匹配了一個 "x"
(d)(\w+?)(d)	為了讓整個表達式匹配成功，"\w+?" 不得不匹配 "xxx" 才可以讓后邊的 "d" 匹配，從而使整個表達式匹配成功。因此，結果是："\w+?" 匹配 "xxx"

更多的情況，舉例如下：
舉例1：表達式 "<td>(.*)</td>" 與字符串 "<td>aa</td> <td>bb</td>" 匹配時，匹配的結果是：成功；匹配到的內容是 "<td>aa</td> <td>bb</td>" 整個字符串，表達式中的 "</td>" 將與字符串中最后一個 "</td>" 匹配。
舉例2：相比之下，表達式 "<td>(.*?)</td>" 匹配舉例1中同樣的字符串時，將只得到 "<td>aa</td>"，再次匹配下一個時，可以得到第二個 "<td>bb</td>"。

2、反向引用 \1, \2

表達式在匹配時，表達式引擎會將小括號 "( )" 包含的表達式所匹配到的字符串記錄下來。在獲取匹配結果的時候，小括號包含的表達式所匹配到的字符串可以單獨獲取。這一點，在前面的舉例中，已經多次展示了。在實際應用場合中，當用某種邊界來查找，而所要獲取的內容又不包含邊界時，必須使用小括號來指定所要的范圍。比如前面的 "<td>(.*?)</td>"。

其實，"小括號包含的表達式所匹配到的字符串" 不僅是在匹配結束后才可以使用，在匹配過程中也可以使用。表達式后邊的部分，可以引用前面 "括號內的子匹配已經匹配到的字符串"。引用方法是 "\" 加上一個數字。"\1" 引用第1對括號內匹配到的字符串，"\2" 引用第2對括號內匹配到的字符串……以此類推，如果一對括號內包含另一對括號，則外層的括號先排序號。換句話說，哪一對的左括號 "(" 在前，那這一對就先排序號。

舉例如下：

 舉例1：表達式 "('|")(.*?)\1" 在匹配 " 'Hello', "World" " 時，匹配結果是：成功；匹配到的內容是：" 'Hello' "。再次匹配下一個時，可以匹配到 " "World" "。

 舉例2：表達式 "(\w)\1{4,}" 在匹配 "aa bbbb abcdefg ccccc 111121111 999999999" 時，匹配結果是：成功；匹配到的內容是 "ccccc"。再次匹配下一個時，將得到 999999999。這個表達式要求 "\w" 范圍的字符至少重復5次，注意與 "\w{5,}" 之間的區別。

 舉例3：表達式 "<(\w+)\s*(\w+(=('|").*?\4)?\s*)*>.*?</\1>" 在匹配 "<td id='td1' style="bgcolor:white"></td>" 時，匹配結果是成功。如果 "<td>" 與 "</td>" 不配對，則會匹配失敗；如果改成其他配對，也可以匹配成功。

3、預搜索

前面的章節中，我講到了幾個代表抽象意義的特殊符號："^"，"$"，"\b"。它們都有一個共同點，那就是：它們本身不匹配任何字符，只是對 "字符串的兩頭" 或者 "字符之間的縫隙" 附加了一個條件。理解到這個概念以后，本節將繼續介紹另外一種對 "兩頭" 或者 "縫隙" 附加條件的，更加靈活的表示方法。

正向預搜索："(?=xxxxx)"，"(?!xxxxx)"

格式："(?=xxxxx)"，在被匹配的字符串中，它對所處的 "縫隙" 或者 "兩頭" 附加的條件是：所在縫隙的右側，必須能夠匹配上 xxxxx 這部分的表達式。因為它只是在此作為這個縫隙上附加的條件，所以它並不影響后邊的表達式去真正匹配這個縫隙之后的字符。這就類似 "\b"，本身不匹配任何字符。"\b" 只是將所在縫隙之前、之后的字符取來進行了一下判斷，不會影響后邊的表達式來真正的匹配。

舉例1：表達式 "Windows (?=NT|XP)" 在匹配 "Windows 98, Windows NT, Windows 2000" 時，將只匹配 "Windows NT" 中的 "Windows "，其他的 "Windows " 字樣則不被匹配。

舉例2：表達式 "(\w)((?=\1\1\1)(\1))+" 在匹配字符串 "aaa ffffff 999999999" 時，將可以匹配6個"f"的前4個，可以匹配9個"9"的前7個。這個表達式可以讀解成：重復4次以上的字母數字，則匹配其剩下最后2位之前的部分。當然，這個表達式可以不這樣寫，在此的目的是作為演示之用。

格式："(?!xxxxx)"，所在縫隙的右側，必須不能匹配 xxxxx 這部分表達式。

舉例3：表達式 "((?!\bstop\b).)+" 在匹配 "fdjka ljfdl stop fjdsla fdj" 時，將從頭一直匹配到 "stop" 之前的位置，如果字符串中沒有 "stop"，則匹配整個字符串。

舉例4：表達式 "do(?!\w)" 在匹配字符串 "done, do, dog" 時，只能匹配 "do"。在本條舉例中，"do" 后邊使用 "(?!\w)" 和使用 "\b" 效果是一樣的。

表達式	方向	說明
(?=xxx)	正向預搜索（向右）	正向預搜索，判斷當前位置右側是否能匹配指定表達式
(?!xxx)	正向預搜索（向右）	正向預搜索否定，判斷當前位置右側是否不能夠匹配指定表達式
(?<=xxx)	反向預搜索（向左）[ABAP不支持]	反向預搜索，判斷當前位置左側是否能夠匹配指定表達式
(?<!xxx)	反向預搜索（向左）[ABAP不支持]	反向預搜索否定，判斷當前位置左側是否不能夠匹配指定表達式

4、其他補充

1> 在表達式 "\s"，"\d"，"\w"，"\b" 表示特殊意義的同時，其大寫字母表示相反的意義

表達式	可匹配
\S	匹配所有非空白字符（"\s" 可匹配各個空白字符）
\D	匹配所有的非數字字符
\W	匹配所有的字母、數字、下划線以外的字符
\B	匹配非單詞邊界，即左右兩邊都是 "\w" 范圍或者左右兩邊都不是 "\w" 范圍時的字符縫隙

2> 在表達式中有特殊意義，需要添加 "\" 才能匹配該字符本身的字符匯總

字符	說明
^	匹配輸入字符串的開始位置。要匹配 "^" 字符本身，請使用 "\^"
$	匹配輸入字符串的結尾位置。要匹配 "$" 字符本身，請使用 "\$"
( )	標記一個子表達式的開始和結束位置。要匹配小括號，請使用 "$" 和 "$"
[ ]	用來自定義能夠匹配 '多種字符' 的表達式。要匹配中括號，請使用 "\[" 和 "\]"
{ }	修飾匹配次數的符號。要匹配大括號，請使用 "\{" 和 "\}"
.	匹配除了換行符（\n）以外的任意一個字符。要匹配小數點本身，請使用 "\."
?	修飾匹配次數為 0 次或 1 次。要匹配 "?" 字符本身，請使用 "\?"
+	修飾匹配次數為至少 1 次。要匹配 "+" 字符本身，請使用 "\+"
*	修飾匹配次數為 0 次或任意次。要匹配 "" 字符本身，請使用 "\"
\|	左右兩邊表達式之間 "或" 關系。匹配 "\|" 本身，請使用 "\\|"

四、在ABAP中的應用

規則終於寫完了！其實和其他編程語言規則差不多啦！下面結合ABAP講講怎么使用吧，Let’s GO!

不過需要注意, SAP只能是ECC6或者更高版本才可以使用正則(ABAP supports POSIX regular expressions as of Release 7.00)

在ABAP中定義了兩個類來實現相應功能，分別是

CL_ABAP_REGEX regex就是regular expression的縮寫，里面的方法不是很多，可能用到的也就只有構造方法和REATE_MATCHER這個方法。

CL_ABAP_MATCHER matcher匹配的意思，也就是說所有的匹配規則都和它有關，里面具體方法，se24去查看

其實正則表達式的應用無外乎三種：驗證（是否符合規則）、查找（包含提取）、替換

1、驗證

實例1

IF CL_ABAP_MATCHER=>MATCHES( PATTERN = '\D+'
                             TEXT    = 'ZF25' )
   = ABAP_TRUE.
  WRITE 'IS NUMBER'.
ELSE.
  WRITE 'IS NOT NUMBER'.
ENDIF.

輸出結果：IS NOT NUMBER

解釋：CL_ABAP_MATCHER有一個靜態方法，直接進行匹配。

2、查找

實例2

DATA:
 MATCHER TYPE REF TO CL_ABAP_MATCHER,
 MATCHES TYPE MATCH_RESULT_TAB,
 MATCH LIKE LINE OF MATCHES,
 W_TEXT TYPE STRING.
W_TEXT = '<a id="MyLinks1_NewPostLink"'
& ' href="http://www.cnblogs.com/VerySky/admin/EditPosts.aspx?opt=1">'.
MATCHER = CL_ABAP_MATCHER=>CREATE( PATTERN = 'http://.*(?=")'
 TEXT = W_TEXT ).
MATCHES = MATCHER->FIND_ALL( ).
LOOP AT MATCHES INTO MATCH.
 WRITE:/ W_TEXT+MATCH-OFFSET(MATCH-LENGTH).
ENDLOOP.

輸出結果：http://www.cnblogs.com/VerySky/admin/EditPosts.aspx?opt=1

解釋：

創建match實例（創建規則），構造方法中有pattern參數輸入規則，IGNORE_CASE是否忽略大小寫，SIMPLE_REGEX是否使用簡單規則（具體參見F1幫助文檔），

B．在實例中有FIND_ALL(),FIND_NEXT()方法，可以用來查找。

這個方法是不是太麻煩了啊，不急有簡單的方法，其實就是字符串處理中用到的。

實例3

DATA: patt TYPE string VALUE `n.?w`,
 text TYPE string,
 result_tab TYPE match_result_tab.
FIELD-SYMBOLS <match> LIKE LINE OF result_tab.
FIND ALL OCCURRENCES OF REGEX patt IN
 `Everybody knows this is nowhere`
 RESULTS result_tab.
LOOP AT result_tab ASSIGNING <match>.
 WRITE: / <match>-offset, <match>-length.
ENDLOOP.

輸出結果：

11 3

24 3

實例4

DATA: STR TYPE STRING ,
      RESULT_TAB TYPE MATCH_RESULT_TAB ,
      WA LIKE LINE OF RESULT_TAB.
*找出STRING里面的雙字節字符
str = 'abc我啊adfsf們'.
FIND ALL OCCURRENCES OF REGEX '[^\x00-\xff]*' IN STR RESULTS RESULT_TAB.
LOOP AT RESULT_TAB INTO WA.
  WRITE / STR+WA-OFFSET(WA-LENGTH).
ENDLOOP.

輸出結果：

我啊

們

解釋：大家都知道英文字母是單字節的，中文是雙字節的，但是在ABAP里面用strlen等方法是區別不出單雙字節的，這個實例中講的不失為一個很好的辦法。

3、替換

實例4

DATA:
  MATCHER TYPE REF TO CL_ABAP_MATCHER,
  COUNT   TYPE I,
  W_TEXT  TYPE STRING,
  W_NEWTEXT TYPE STRING.
W_TEXT    = 'hubinshishuibuzhidao'.
W_NEWTEXT = 'FFF'.
MATCHER = CL_ABAP_MATCHER=>CREATE( PATTERN  = 'sh.?i'
                                   TEXT     = W_TEXT ).
WRITE:/ 'REPLACE BEFORE:', W_TEXT.
COUNT = MATCHER->REPLACE_ALL( NEWTEXT = W_NEWTEXT ).
WRITE:/ 'REPLACE COUNT IS:', COUNT.
WRITE:/ 'REPLACE AFTER:', W_TEXT.

輸出結果：

REPLACE BEFORE: hubinshishuibuzhidao

REPLACE COUNT IS:2

REPLACE AFTER: hubinshishuibuzhidao

大家肯定會說了，字符串前后沒有沒替換啊。注意修改的不是W_TEXT本身，他將修改后的值放到了MATCHER->TEXT即match類實例的屬性里面，我們只需令W_TEXT = MATCHER->TEXT即可。

修改后

W_TEXT = MATCHER->TEXT.
WRITE:/ 'REPLACE COUNT IS:', COUNT.
WRITE:/ 'REPLACE AFTER:', W_TEXT.

輸出結果：

REPLACE BEFORE: hubinshishuibuzhidao

REPLACE COUNT IS:2

REPLACE AFTER: hubinFFFFFFbuzhidao

同樣這里也有簡單方法，字符串處理中的方法也是支持正則的

實例5

DATA TEXT TYPE STRING VALUE '-dfufdud-'.
REPLACE ALL OCCURRENCES OF REGEX 'u' IN text WITH 'x'.
WRITE TEXT.

輸出結果：

-dfxfdxd-

4、 方法語句總結

類結

CL_ABAP_MATCHER類里的重要方法

字符串處理中，支持正則的語句

五、補充

這里給出ABAP F1幫助中給出的一個特殊字符的列表，很有用的

Special Characters in Regular Expressions

The following tables summarize the special characters in regular expressions:

Escape character

Special character	Meaning
\	Escape character for special characters

Special character for single character strings

Special character	Meaning
.	Placeholder for any single character
\C	Placeholder for any single character
\d	Placeholder for any single digit
\D	Placeholder for any character other than a digit
\l	Placeholder for any lower-case letter
\L	Placeholder for any character other than a lower-case letter
\s	Placeholder for a blank character
\S	Placeholder for any character other than a blank character
\u	Placeholder for any upper-case letter
\U	Placeholder for any character other than an upper-case letter
\w	Placeholder for any alphanumeric character including _
\W	Placeholder for any non-alphanumeric character except for _
[ ]	Definition of a value set for single characters
[^ ]	Negation of a value set for single characters
[ - ]	Definition of a range in a value set for single characters
[ [:alnum:] ]	Description of all alphanumeric characters in a value set
[ [:alpha:] ]	Description of all letters in a value set
[ [:blank:] ]	Description for blank characters and horizontal tabulators in a value set
[ [:cntrl:] ]	Description of all control characters in a value set
[ [:digit:] ]	Description of all digits in a value set
[ [:graph:] ]	Description of all graphic special characters in a value set
[ [:lower:] ]	Description of all lower-case letters in a value set
[ [:print:] ]	Description of all displayable characters in a value set
[ [:punct:] ]	Description of all punctuation characters in a value set
[ [:space:] ]	Description of all blank characters, tabulators, and carriage feeds in a value set
[ [:unicode:] ]	Description of all Unicode characters in a value set with a code larger than 255
[ [:upper:] ]	Description of all upper-case letters in a value set
[ [:word:] ]	Description of all alphanumeric characters in a value set, including _
[ [:xdigit:] ]	Description of all hexadecimal digits in a value set
\a \f \n \r \t \v	Diverse platform-specific control characters
[..]	Reserved for later enhancements
[==]	Reserved for later enhancements

Special characters for character string patterns

Special character	Meaning
{n}	Concatenation of n single characters
{n,m}	Concatenation of at least n and a maximum of m single characters
{n,m}?	Reserved for later enhancements
?	One or no single characters
*	Concatenation of any number of single characters including 'no characters'
*?	Reserved for later enhancements
+	Concatenation of any number of single characters excluding 'no characters'
+?	Reserved for later enhancements
\|	Linking of two alternative expressions
( )	Definition of subgroups with registration

(?: )	Definition of subgroups without registration
\1, \2, \3 ...	Placeholder for the register of subgroups
\Q ... \E	Definition of a string of literal characters
(? ... )	Reserved for later enhancements

Special characters for search strings

Special character	Meaning
^	Anchor character for the start of a line
\A	Anchor character for the start of a character string
$	Anchor character for the end of a line
\Z	Anchor character for the end of a character string
\<	Start of a word
\>	End of a word
\b	Start or end of a word
\B	Space between characters within a word
(?= )	Preview condition
(?! )	Negated preview condition

Special characters for replacement texts

Special character	Meaning
$0, $&	Placeholder for the whole found location
$1, $2, $3...	Placeholder for the register of subgroups
$`	Placeholder for the text before the found location
$'	Placeholder for the text after the found location

從上面的列表可以看出，ABAP中對“非貪婪模式”（ABAP啊，你不支持啊，你太貪婪了）和“反向預搜索”暫不支持，希望以后能夠趕緊擴展功能吧，畢竟很強大的說。

正則表達式是需要反復修改，最后才能找到最匹配的規則的，為此ABAP Program里也提供了一個，測試用得小程序，SE38里找DEMO_REGEX_TOY運行即可。

在ABAP培訓資料里面有一個很有意思的表達式，大家有興趣可以看一下它能匹配什么文字

^(?=\d)(?:(?:31(?!.(?:0?[2469]|11))|(?:30

|29)(?!.0?2)|29(?=.0?2.(?:(?:(?:1[6-9]|[2

-9]\d)?(?:0[48]|[2468][048]|[13579][26])|

(?:(?:16|[2468][048]|[3579][26])00)))(?:\

x20|$))|(?:2[0-8]|1\d|0?[1-9]))([-./])(?:

1[012]|0?[1-9])\1(?:1[6-9]|[2-9]\d)?\d\d(

?:(?=\x20\d)\x20|$))?(((0?[1-9]|1[012])(:

[0-5]\d){0,2}(\x20[AP]M))|([01]\d|2[0-3])

(:[0-5]\d){1,2})?$

以下附上網上的一些資料：

表達式全集

正則表達式有多種不同的風格。下表是在PCRE中元字符及其在正則表達式上下文中的行為的一個完整列表：

字符	描述
\	將下一個字符標記為一個特殊字符、或一個原義字符、或一個向后引用、或一個八進制轉義符。例如，“`n`”匹配字符“`n`”。“`\n`”匹配一個換行符。序列“`\\`”匹配“`\`”而“`\(`”則匹配“`(`”。
^	匹配輸入字符串的開始位置。如果設置了RegExp對象的Multiline屬性，^也匹配“`\n`”或“`\r`”之后的位置。
$	匹配輸入字符串的結束位置。如果設置了RegExp對象的Multiline屬性，$也匹配“`\n`”或“`\r`”之前的位置。
*	匹配前面的子表達式零次或多次。例如，zo能匹配“`z`”以及“`zoo`”。等價於{0,}。
+	匹配前面的子表達式一次或多次。例如，“`zo+`”能匹配“`zo`”以及“`zoo`”，但不能匹配“`z`”。+等價於{1,}。
?	匹配前面的子表達式零次或一次。例如，“`do(es)?`”可以匹配“`do`”或“`does`”中的“`do`”。?等價於{0,1}。
{n}	n是一個非負整數。匹配確定的n次。例如，“`o{2}`”不能匹配“`Bob`”中的“`o`”，但是能匹配“`food`”中的兩個o。
{n,}	n是一個非負整數。至少匹配n次。例如，“`o{2,}`”不能匹配“`Bob`”中的“`o`”，但能匹配“`foooood`”中的所有o。“`o{1,}`”等價於“`o+`”。“`o{0,}`”則等價於“`o*`”。
{n,m}	m和n均為非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，“`o{1,3}`”將匹配“`fooooood`”中的前三個o。“`o{0,1}`”等價於“`o?`”。請注意在逗號和兩個數之間不能有空格。
?	當該字符緊跟在任何一個其他限制符（*,+,?，{n}，{n,}，{n,m}）后面時，匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串，而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如，對於字符串“`oooo`”，“`o+?`”將匹配單個“`o`”，而“`o+`”將匹配所有“`o`”。
.	匹配除“`\n`”之外的任何單個字符。要匹配包括“`\n`”在內的任何字符，請使用像“`[.\n]`”的模式。
(pattern)	匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括號字符，請使用“`$`”或“`$`”。
(?:pattern)	匹配pattern但不獲取匹配結果，也就是說這是一個非獲取匹配，不進行存儲供以后使用。這在使用或字符“`(\|)`”來組合一個模式的各個部分是很有用。例如“`industr(?:y\|ies)`”就是一個比“`industry\|industries`”更簡略的表達式。
(?=pattern)	正向預查，在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如，“`Windows(?=95\|98\|NT\|2000)`”能匹配“`Windows2000`”中的“`Windows`”，但不能匹配“`Windows3.1`”中的“`Windows`”。預查不消耗字符，也就是說，在一個匹配發生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始。
(?!pattern)	負向預查，在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以后使用。例如“`Windows(?!95\|98\|NT\|2000)`”能匹配“`Windows3.1`”中的“`Windows`”，但不能匹配“`Windows2000`”中的“`Windows`”。預查不消耗字符，也就是說，在一個匹配發生后，在最后一次匹配之后立即開始下一次匹配的搜索，而不是從包含預查的字符之后開始
x\|y	匹配x或y。例如，“`z\|food`”能匹配“`z`”或“`food`”。“`(z\|f)ood`”則匹配“`zood`”或“`food`”。
[xyz]	字符集合。匹配所包含的任意一個字符。例如，“`[abc]`”可以匹配“`plain`”中的“`a`”。
[^xyz]	負值字符集合。匹配未包含的任意字符。例如，“`[^abc]`”可以匹配“`plain`”中的“`p`”。
[a-z]	字符范圍。匹配指定范圍內的任意字符。例如，“`[a-z]`”可以匹配“`a`”到“`z`”范圍內的任意小寫字母字符。
[^a-z]	負值字符范圍。匹配任何不在指定范圍內的任意字符。例如，“`[^a-z]`”可以匹配任何不在“`a`”到“`z`”范圍內的任意字符。
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如，“`er\b`”可以匹配“`never`”中的“`er`”，但不能匹配“`verb`”中的“`er`”。
\B	匹配非單詞邊界。“`er\B`”能匹配“`verb`”中的“`er`”，但不能匹配“`never`”中的“`er`”。
\cx	匹配由x指明的控制字符。例如，\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則，將c視為一個原義的“`c`”字符。
\d	匹配一個數字字符。等價於[0-9]。
\D	匹配一個非數字字符。等價於[^0-9]。
\f	匹配一個換頁符。等價於\x0c和\cL。
\n	匹配一個換行符。等價於\x0a和\cJ。
\r	匹配一個回車符。等價於\x0d和\cM。
\s	匹配任何空白字符，包括空格、制表符、換頁符等等。等價於[\f\n\r\t\v]。
\S	匹配任何非空白字符。等價於[^\f\n\r\t\v]。
\t	匹配一個制表符。等價於\x09和\cI。
\v	匹配一個垂直制表符。等價於\x0b和\cK。
\w	匹配包括下划線的任何單詞字符。等價於“`[A-Za-z0-9_]`”。
\W	匹配任何非單詞字符。等價於“`[^A-Za-z0-9_]`”。
\xn	匹配n，其中n為十六進制轉義值。十六進制轉義值必須為確定的兩個數字長。例如，“`\x41`”匹配“`A`”。“`\x041`”則等價於“`\x04&1`”。正則表達式中可以使用ASCII編碼。.
\num	匹配num，其中num是一個正整數。對所獲取的匹配的引用。例如，“`(.)\1`”匹配兩個連續的相同字符。
\n	標識一個八進制轉義值或一個向后引用。如果\n之前至少n個獲取的子表達式，則n為向后引用。否則，如果n為八進制數字（0-7），則n為一個八進制轉義值。
\nm	標識一個八進制轉義值或一個向后引用。如果\nm之前至少有nm個獲得子表達式，則nm為向后引用。如果\nm之前至少有n個獲取，則n為一個后跟文字m的向后引用。如果前面的條件都不滿足，若n和m均為八進制數字（0-7），則\nm將匹配八進制轉義值nm。
\nml	如果n為八進制數字（0-3），且m和l均為八進制數字（0-7），則匹配八進制轉義值nml。
\un	匹配n，其中n是一個用四個十六進制數字表示的Unicode字符。例如，\u00A9匹配版權符號（?）。

常用的正則表達式

正則表達式用於字符串處理、表單驗證等場合，實用高效。現將一些常用的表達式收集於此，以備不時之需。

用戶名：/^[a-z0-9_-]{3,16}$/

密碼：/^[a-z0-9_-]{6,18}$/

十六進制值：/^#?([a-f0-9]{6}|[a-f0-9]{3})$/

電子郵箱：/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/

URL：/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/

IP 地址：/^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/

HTML 標簽：/^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$/

Unicode編碼中的漢字范圍：/^[u4e00-u9fa5],{0,}$/

匹配中文字符的正則表達式： [\u4e00-\u9fa5]
評注：匹配中文還真是個頭疼的事，有了這個表達式就好辦了

匹配雙字節字符(包括漢字在內)：[^\x00-\xff]
評注：可以用來計算字符串的長度（一個雙字節字符長度計2，ASCII字符計1）

匹配空白行的正則表達式：\n\s*\r
評注：可以用來刪除空白行

匹配HTML標記的正則表達式：<(\S*?)[^>]*>.*?</\1>|<.*? />
評注：網上流傳的版本太糟糕，上面這個也僅僅能匹配部分，對於復雜的嵌套標記依舊無能為力

匹配首尾空白字符的正則表達式：^\s*|\s*$
評注：可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等)，非常有用的表達式

匹配Email地址的正則表達式：\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
評注：表單驗證時很實用

匹配網址URL的正則表達式：[a-zA-z]+://[^\s]*
評注：網上流傳的版本功能很有限，上面這個基本可以滿足需求

匹配帳號是否合法(字母開頭，允許5-16字節，允許字母數字下划線)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評注：表單驗證時很實用

匹配國內電話號碼：\d{3}-\d{8}|\d{4}-\d{7}
評注：匹配形式如 0511-4405222 或 021-87888822

匹配騰訊QQ號：[1-9][0-9]{4,}
評注：騰訊QQ號從10000開始

匹配中國大陸郵政編碼：[1-9]\d{5}(?!\d)
評注：中國大陸郵政編碼為6位數字

匹配身份證：\d{15}|\d{18}
評注：中國大陸的身份證為15位或18位

匹配ip地址：\d+\.\d+\.\d+\.\d+
評注：提取ip地址時有用

匹配特定數字：
^[1-9]\d*$　　 //匹配正整數
^-[1-9]\d*$ 　 //匹配負整數
^-?[1-9]\d*$　　 //匹配整數
^[1-9]\d*|0$　 //匹配非負整數（正整數 + 0）
^-[1-9]\d*|0$　　 //匹配非正整數（負整數 + 0）
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$　　 //匹配正浮點數
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$　 //匹配負浮點數
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$　 //匹配浮點數
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$　　 //匹配非負浮點數（正浮點數 + 0）
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$　　//匹配非正浮點數（負浮點數 + 0）
評注：處理大量數據時有用，具體應用時注意修正

匹配特定字符串：
^[A-Za-z]+$　　//匹配由26個英文字母組成的字符串
^[A-Z]+$　　//匹配由26個英文字母的大寫組成的字符串
^[a-z]+$　　//匹配由26個英文字母的小寫組成的字符串
^[A-Za-z0-9]+$　　//匹配由數字和26個英文字母組成的字符串
^\w+$　　//匹配由數字、26個英文字母或者下划線組成的字符串

如何寫出高效率的正則表達式

如果純粹是為了挑戰自己的正則水平，用來實現一些特效（例如使用正則表達式計算質數、解線性方程），效率不是問題；如果所寫的正則表達式只是為了滿足一兩次、幾十次的運行，優化與否區別也不太大。但是，如果所寫的正則表達式會百萬次、千萬次地運行，效率就是很大的問題了。我這里總結了幾條提升正則表達式運行效率的經驗（工作中學到的，看書學來的，自己的體會），貼在這里。如果您有其它的經驗而這里沒有提及，歡迎賜教。

為行文方便，先定義兩個概念。

誤匹配：指正則表達式所匹配的內容范圍超出了所需要范圍，有些文本明明不符合要求，但是被所寫的正則式“擊中了”。例如，如果使用\d{11}來匹配11位的手機號，\d{11}不單能匹配正確的手機號，它還會匹配98765432100這樣的明顯不是手機號的字符串。我們把這樣的匹配稱之為誤匹配。

漏匹配：指正則表達式所匹配的內容所規定的范圍太狹窄，有些文本確實是所需要的，但是所寫的正則沒有將這種情況囊括在內。例如，使用\d{18}來匹配18位的身份證號碼，就會漏掉結尾是字母X的情況。

寫出一條正則表達式，既可能只出現誤匹配（條件寫得極寬松，其范圍大於目標文本），也可能只出現漏匹配（只描述了目標文本中多種情況種的一種），還可能既有誤匹配又有漏匹配。例如，使用\w+\.com來匹配.com結尾的域名，既會誤匹配abc_.com這樣的字串（合法的域名中不含下划線，\w包含了下划線這種情況），又會漏掉ab-c.com這樣的域名（合法域名中可以含中划線，但是\w不匹配中划線）。

精准的正則表達式意味着既無誤匹配且無漏匹配。當然，現實中存在這樣的情況：只能看到有限數量的文本，根據這些文本寫規則，但是這些規則將會用到海量的文本中。這種情況下，盡可能地（如果不是完全地）消除誤匹配以及漏匹配，並提升運行效率，就是我們的目標。本文所提出的經驗，主要是針對這種情況。

掌握語法細節。正則表達式在各種語言中，其語法大致相同，細節各有千秋。明確所使用語言的正則的語法的細節，是寫出正確、高效正則表達式的基礎。例如，perl中與\w等效的匹配范圍是[a-zA-Z0-9_]；perl正則式不支持肯定逆序環視中使用可變的重復（variable repetition inside lookbehind，例如(?<=.*)abc），但是.Net語法是支持這一特性的；又如，JavaScript連逆序環視（Lookbehind,如(?<=ab)c）都不支持，而perl和python是支持的。《精通正則表達式》第3章《正則表達式的特性和流派概覽》明確地列出了各大派系正則的異同，這篇文章也簡要地列出了幾種常用語言、工具中正則的比較。對於具體使用者而言，至少應該詳細了解正在使用的那種工作語言里正則的語法細節。

先粗后精，先加后減。使用正則表達式語法對於目標文本進行描述和界定，可以像畫素描一樣，先大致勾勒出框架，再逐步在局步實現細節。仍舉剛才的手機號的例子，先界定\d{11}，總不會錯；再細化為1[358]\d{9}，就向前邁了一大步（至於第二位是不是3、5、8，這里無意深究，只舉這樣一個例子，說明逐步細化的過程）。這樣做的目的是先消除漏匹配（剛開始先盡可能多地匹配，做加法），然后再一點一點地消除誤匹配（做減法）。這樣有先有后，在考慮時才不易出錯，從而向“不誤不漏”這個目標邁進。

留有余地。所能看到的文本sample是有限的，而待匹配檢驗的文本是海量的，暫時不可見的。對於這樣的情況，在寫正則表達式時要跳出所能見到的文本的圈子，開拓思路，作出“戰略性前瞻”。例如，經常收到這樣的垃圾短信：“發*票”、“發#漂”。如果要寫規則屏蔽這樣煩人的垃圾短信，不但要能寫出可以匹配當前文本的正則表達式發[*#](?:票|漂)，還要能夠想到發.(?:票|漂|飄)之類可能出現的“變種”。這在具體的領域或許會有針對性的規則，不多言。這樣做的目的是消除漏匹配，延長正則表達式的生命周期。

明確。具體說來，就是謹慎用點號這樣的元字符，盡可能不用星號和加號這樣的任意量詞。只要能確定范圍的，例如\w，就不要用點號；只要能夠預測重復次數的，就不要用任意量詞。例如，寫析取twitter消息的腳本，假設一條消息的xml正文部分結構是…且正文中無尖括號，那么[^<]{1,480}這種寫法的思路要好於.*，原因有二：一是使用[^<]，它保證了文本的范圍不會超出下一個小於號所在的位置；二是明確長度范圍，{1,480}，其依據是一條twitter消息大致能的字符長度范圍。當然，480這個長度是否正確還可推敲，但是這種思路是值得借鑒的。說得狠一點，“濫用點號、星號和加號是不環保、不負責任的做法”。

不要讓稻草壓死駱駝。每使用一個普通括號()而不是非捕獲型括號(?:…)，就會保留一部分內存等着你再次訪問。這樣的正則表達式、無限次地運行次數，無異於一根根稻草的堆加，終於能將駱駝壓死。養成合理使用(?:…)括號的習慣。

寧簡勿繁。將一條復雜的正則表達式拆分為兩條或多條簡單的正則表達式，編程難度會降低，運行效率會提升。例如用來消除行首和行尾空白字符的正則表達式s/^\s+|\s+$//g;，其運行效率理論上要低於s/^\s+//g; s/\s+$//g; 。這個例子出自《精通正則表達式》第五章，書中對它的評論是“它幾乎總是最快的，而且顯然最容易理解”。既快又容易理解，何樂而不為？工作中我們還有其它的理由要將C==(A|B)這樣的正則表達式拆為A和B兩條表達式分別執行。例如，雖然A和B這兩種情況只要有一種能夠擊中所需要的文本模式就會成功匹配，但是如果只要有一條子表達式（例如A）會產生誤匹配，那么不論其它的子表達式（例如B）效率如何之高，范圍如何精准，C的總體精准度也會因A而受到影響。

巧妙定位。有時候，我們需要匹配的the，是作為單詞的the（兩邊有空格），而不是作為單詞一部分的t-h-e的有序排列（例如together中的the）。在適當的時候用上^，$，\b等等定位錨點，能有效提升找到成功匹配、淘汰不成功匹配的效率。

附上資料：

1、本文word版：http://115.com/file/c2fac2o9

2、正則表達式ABAP官方資料：http://115.com/file/beucnm53

3、正則表達式查閱文檔：http://115.com/file/c2fackc0

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 正則表達式中：.*，.*?，.+?的理解與應用正則表達式中的$1,$2與實際應用深入正則表達式應用擴展正則表達式及應用 Java正則表達式的應用字符串處理：ABAP中的正則表達式 python中的正則表達式正則表達式中?=和?:和?!的理解 Hive中的正則表達式 JS中的正則表達式

【ABAP正則表達式】正則表達式在ABAP中的應用

1、 匹配次數中的貪婪與非貪婪

2、 反向引用 \1, \2

3、 預搜索

4、 其他補充

Special Characters in Regular Expressions

Escape character

Special character for single character strings

Special characters for character string patterns

Special characters for search strings

Special characters for replacement texts

表達式全集

常用的正則表達式

如何寫出高效率的正則表達式

免責聲明！

1、匹配次數中的貪婪與非貪婪

2、反向引用 \1, \2

3、預搜索

4、其他補充