【ABAP正則表達式】正則表達式在ABAP中的應用


正則表達式(Regular Expressions

正則表達式在其他編程語言中的應用非常廣泛,網上資料也非常多,而網上在ABAP語言中應用的資料卻很少,盡管各語言中正則表達式語法知識都很類似,但仍然有一些區別,本文主要是簡單介紹一下其基本語法。總結一下,方便大家查閱。

歡迎轉載,請注明出處,文中不足之處還望指正。(Email:hubin0809@126.com)

一、簡要認識

正則表達式就是用一個“字符串”來描述一個特征,然后去驗證另一個“字符串”是否符合這個特征。比如表達式“ab+” 描述的特征是“一個 'a' 和任意個 'b' ”,那么 'ab', 'abb', 'abbbbbbbbbb' 都符合這個特征。

正則表達式可以用來:(1)驗證字符串是否符合指定特征,比如驗證是否是合法的郵件地址。(2)用來查找字符串,從一個長的文本中查找符合指定特征的字符串,比查找固定字符串更加靈活方便。(3)用來替換,比普通的替換更強大。

舉例

DATA: matcher TYPE REF TO cl_abap_matcher,
      match   
TYPE c LENGTH 1.
matcher = cl_abap_matcher=>create( pattern     = 
'\w+@\w+(\.\w+)+'
                                   
text        = 'hubin0809@126.com' ).
match = matcher->match( ).
WRITE match.

輸出結果:X

解釋:

1>     '\w+@\w+(\.\w+)+'中 \w 是表示任意一個字母或數字或下划線,+ 表示前面字符個數為一個或多個,@即為’@’字符

2>     matcher參照類cl_abap_matcher,match有匹配的意思,調用靜態方法create創建了匹配的對(暫時這么理解,好吧,我承認我不知道怎么形容),然后調用match方法,返回值中’X’表示匹配,SPACE表示不匹配。

具體含義后面會講到,本程序主要是驗證郵件地址是否合法。

 

二、語法規則

 

pattern模板,text要匹配的字符,match匹配結果,’X’表示匹配,SPACE表示不匹配。

 

1、 普通字符

 

字母、數字、漢字、下划線、以及后面沒有特殊定義的標點符號,都是"普通字符"。表達式中的普通字符,在匹配一個字符串的時候,匹配與之相同的一個字符。

Pattern

Text

Match

A

A

X

A

a

-

A

AB

-

AB

AB

X

 

2、 轉義字符

 

一些不便書寫的字符,采用在前面加 "\" 的方法。例如’.’

表達式

可匹配

\\

代表 "\" 本身

\.

匹配小數點(.)本身

\Q...\E

中間的字符作為普通字符

 

Pattern

Text

Match

.\.

f.

X

.\.

f\f

-

\w\d

\w\d

-

\\w\\d

\w\d

X

\Q\w\d\E

\w\d

X

 

3、 能夠與 '多種字符' 匹配的表達式

 

正則表達式中的一些表示方法,可以匹配 '多種字符' 其中的任意一個字符。比如,表達式 "\d" 可以匹配任意一個數字。雖然可以匹配其中任意字符,但是只能是一個,不是多個。這就好比玩撲克牌時候,大小王可以代替任意一張牌,但是只能代替一張牌。(沒玩過?好吧,去玩qq夠級吧,ok,信息泄露了,承認我是山東人)

表達式

可匹配

\d

任意一個數字,0~9 中的任意一個

\w

任意一個字母或數字或下划線,也就是 A~Z,a~z,0~9,_ 中任意一個

\s

包括空格、制表符、換頁符等空白字符的其中任意一個

.

小數點可以匹配除了換行符(\n)以外的任意一個字符

 

Pattern

Text

Match

\d

9

X

\d

25

-

\d\d

25

X

\w

A

X

\s

\n

X

...

4zF

X

 

4、 自定義能夠與 '多種字符' 匹配的表達式

 

使用方括號 [ ] 包含一系列字符,能夠匹配其中任意一個字符。用 [^ ] 包含一系列字符,則能夠匹配其中字符之外的任意一個字符。同樣的道理,雖然可以匹配其中任意一個,但是只能是一個,不是多個。

表達式

可匹配

[ab5@]

匹配 "a" 或 "b" 或 "5" 或 "@"

[^abc]

匹配 "a","b","c" 之外的任意一個字符

[f-k]

匹配 "f"~"k" 之間的任意一個字母

[^A-F0-3]

匹配 "A"~"F","0"~"3" 之外的任意一個字符

 

Pattern

Text

Match

[abc]

a

X

[abc]

abc

-

[^abc]b

cb

-

[a-g]b

cb

X

5、 支持的 POSIX 字符集合

 

POSIX 字符集合

可匹配

[:alnum:]

任何一個字母或數字(A - Z, a - z, 0 - 9)

[:alpha:]

任何一個字母(A - Z, a - z)

[:cntrl:]

任何一個控制字符(\x00 – \x1F, \x7F)

[:digit:]

任何一個數字(0 – 9)

[:space:]

任何一個空白字符(\x09 – \x0D, \x20)

[:graph:]

任何一個可顯示的 ASCII 字符,不包含空格

[:lower:]

任何一個小寫字母(a – z)

[:upper:]

任何一個大寫字母(A – Z)

[:punct:]

可顯示字符 [:print:] 中除去字母數字 [:alnum:]

[:blank:]

空格或者制表符(\x20, \x09)

    個人感覺意義不大,可能對一些控制字符有用吧,了解。

   

Pattern

Text

Match

[[:alnum:]]

a

X

[:lower:][:digit:]

a9

X

[[:lower:][:digit:]]

a9

-

[[:lower:][:digit:]]

b

X

 

6、 修飾匹配次數的特殊符號

 

前面講到的表達式,無論是只能匹配一種字符的表達式,還是可以匹配多種字符其中任意一個的表達式,都只能匹配一次。如果使用表達式再加上修飾匹配次數的特殊符號,那么不用重復書寫表達式就可以重復匹配,否則會累死的。

表達式

作用

{n}

表達式重復n次,比如:"\w{2}" 相當於 "\w\w";"a{5}" 相當於 "aaaaa"

{m,n}

表達式至少重復m次,最多重復n次,比如:"ba{1,3}"可以匹配 "ba"或"baa"或"baaa"

{m,}

表達式至少重復m次,比如:"\w\d{2,}"可以匹配 "a12","_456","M12344"...

?

匹配表達式0次或者1次,相當於 {0,1},比如:"a[cd]?"可以匹配 "a","ac","ad"

+

表達式至少出現1次,相當於 {1,},比如:"a+b"可以匹配 "ab","aab","aaab"...

*

表達式不出現或出現任意次,相當於 {0,},比如:"*b"可以匹配 "b","cccb"...

 

Pattern

Text

Match

[abc]{3}

bca

X

.{3,5}

abcd

X

\d{5,}

12345

X

a*b

b

X

a+b

b

-

 

7、 其他一些代表抽象意義的特殊符號

 

表達式

作用

^

與字符串開始的地方匹配,不匹配任何字符

$

與字符串結束的地方匹配,不匹配任何字符

\b

匹配一個單詞邊界,也就是單詞和空格之間的位置,不匹配任何字符

|

左右兩邊表達式之間 "或" 關系,匹配左邊或者右邊

( )

(1). 在被修飾匹配次數的時候,括號中的表達式可以作為整體被修飾
(2). 取匹配結果的時候,括號中的表達式匹配到的內容可以被單獨得到

(?:  )

匹配pattern但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以后使用。

 

進一步的文字說明仍然比較抽象,因此,舉例幫助大家理解。

    舉例1:表達式 "^aaa" 在匹配 "xxx aaa xxx" 時,匹配結果是:失敗。因為 "^" 要求與字符串開始的地方匹配,因此,只有當 "aaa" 位於字符串的開頭的時候,"^aaa" 才能匹配,比如:"aaa xxx xxx"。

    舉例2:表達式 "aaa$" 在匹配 "xxx aaa xxx" 時,匹配結果是:失敗。因為 "$" 要求與字符串結束的地方匹配,因此,只有當 "aaa" 位於字符串的結尾的時候,"aaa$" 才能匹配,比如:"xxx xxx aaa"。

    舉例3:表達式 ".\b." 在匹配 "@@@abc" 時,能夠找到匹配的內容;匹配到的內容是:"@a";匹配到的位置是:開始於2,結束於4。
    進一步說明:"\b" 與 "^" 和 "$" 類似,本身不匹配任何字符,但是它要求它在匹配結果中所處位置的左右兩邊,其中一邊是 "\w" 范圍,另一邊是 非"\w" 的范圍。

    舉例4:表達式 "\bend\b" 在匹配 "weekend,endfor,end" 時,能夠找到匹配的內容;匹配到的內容是:"end";匹配到的位置是:開始於15,結束於18。

 

Pattern

Text

Match

(.{1,3})|(.{5,})

bcade

X

 

三、正則表達式中的一些高級規則(ABAP部分支持)

1、 匹配次數中的貪婪與非貪婪

貪婪模式:

 

在使用修飾匹配次數的特殊符號時,有幾種表示方法可以使同一個表達式能夠匹配不同的次數,比如:"{m,n}", "{m,}", "?", "*", "+",具體匹配的次數隨被匹配的字符串而定。這種重復匹配不定次數的表達式在匹配過程中,總是盡可能多的匹配。比如,針對文本 "dxxxdxxxd",舉例如下:

表達式

匹配結果

(d)(\w+)

"\w+" 將匹配第一個 "d" 之后的所有字符 "xxxdxxxd"

(d)(\w+)(d)

"\w+" 將匹配第一個 "d" 和最后一個 "d" 之間的所有字符 "xxxdxxx"。雖然 "\w+" 也能夠匹配上最后一個 "d",但是為了使整個表達式匹配成功,"\w+" 可以 "讓出" 它本來能夠匹配的最后一個 "d"

由此可見,"\w+" 在匹配的時候,總是盡可能多的匹配符合它規則的字符。雖然第二個舉例中,它沒有匹配最后一個 "d",但那也是為了讓整個表達式能夠匹配成功。同理,帶 "*" 和 "{m,n}" 的表達式都是盡可能地多匹配,帶 "?" 的表達式在可匹配可不匹配的時候,也是盡可能的 "要匹配"。這種匹配原則就叫作 "貪婪" 模式 。

非貪婪模式:(ABAP暫時不支持,但是最好理解吧)

    在修飾匹配次數的特殊符號后再加上一個 "?" 號,則可以使匹配次數不定的表達式盡可能少的匹配,使可匹配可不匹配的表達式,盡可能的 "不匹配"。這種匹配原則叫作 "非貪婪" 模式,也叫作 "勉強" 模式。如果少匹配就會導致整個表達式匹配失敗的時候,與貪婪模式類似,非貪婪模式會最小限度的再匹配一些,以使整個表達式匹配成功。舉例如下,針對文本 "dxxxdxxxd" 舉例:

表達式

匹配結果

(d)(\w+?)

"\w+?" 將盡可能少的匹配第一個 "d" 之后的字符,結果是:"\w+?" 只匹配了一個 "x"

(d)(\w+?)(d)

為了讓整個表達式匹配成功,"\w+?" 不得不匹配 "xxx" 才可以讓后邊的 "d" 匹配,從而使整個表達式匹配成功。因此,結果是:"\w+?" 匹配 "xxx"

更多的情況,舉例如下:
    舉例1:表達式 "<td>(.*)</td>" 與字符串 "<td><p>aa</p></td> <td><p>bb</p></td>" 匹配時,匹配的結果是:成功;匹配到的內容是 "<td><p>aa</p></td> <td><p>bb</p></td>" 整個字符串, 表達式中的 "</td>" 將與字符串中最后一個 "</td>" 匹配。
    舉例2:相比之下,表達式 "<td>(.*?)</td>" 匹配舉例1中同樣的字符串時,將只得到 "<td><p>aa</p></td>", 再次匹配下一個時,可以得到第二個 "<td><p>bb</p></td>"。

2、 反向引用 \1, \2

表達式在匹配時,表達式引擎會將小括號 "( )" 包含的表達式所匹配到的字符串記錄下來。在獲取匹配結果的時候,小括號包含的表達式所匹配到的字符串可以單獨獲取。這一點,在前面的舉例中,已經多次展示了。在實際應用場合中,當用某種邊界來查找,而所要獲取的內容又不包含邊界時,必須使用小括號來指定所要的范圍。比如前面的 "<td>(.*?)</td>"。

    其實,"小括號包含的表達式所匹配到的字符串" 不僅是在匹配結束后才可以使用,在匹配過程中也可以使用。表達式后邊的部分,可以引用前面 "括號內的子匹配已經匹配到的字符串"。引用方法是 "\" 加上一個數字。"\1" 引用第1對括號內匹配到的字符串,"\2" 引用第2對括號內匹配到的字符串……以此類推,如果一對括號內包含另一對括號,則外層的括號先排序號。換句話說,哪一對的左括號 "(" 在前,那這一對就先排序號。

舉例如下:

    舉例1:表達式 "('|")(.*?)\1" 在匹配 " 'Hello', "World" " 時,匹配結果是:成功;匹配到的內容是:" 'Hello' "。再次匹配下一個時,可以匹配到 " "World" "。

    舉例2:表達式 "(\w)\1{4,}" 在匹配 "aa bbbb abcdefg ccccc 111121111 999999999" 時,匹配結果是:成功;匹配到的內容是 "ccccc"。再次匹配下一個時,將得到 999999999。這個表達式要求 "\w" 范圍的字符至少重復5次,注意與 "\w{5,}" 之間的區別。

    舉例3:表達式 "<(\w+)\s*(\w+(=('|").*?\4)?\s*)*>.*?</\1>" 在匹配 "<td id='td1' style="bgcolor:white"></td>" 時,匹配結果是成功。如果 "<td>" 與 "</td>" 不配對,則會匹配失敗;如果改成其他配對,也可以匹配成功。

3、 預搜索

前面的章節中,我講到了幾個代表抽象意義的特殊符號:"^","$","\b"。它們都有一個共同點,那就是:它們本身不匹配任何字符,只是對 "字符串的兩頭" 或者 "字符之間的縫隙" 附加了一個條件。理解到這個概念以后,本節將繼續介紹另外一種對 "兩頭" 或者 "縫隙" 附加條件的,更加靈活的表示方法。

 

正向預搜索:"(?=xxxxx)","(?!xxxxx)"


    格式:"(?=xxxxx)",在被匹配的字符串中,它對所處的 "縫隙" 或者 "兩頭" 附加的條件是:所在縫隙的右側,必須能夠匹配上 xxxxx 這部分的表達式。因為它只是在此作為這個縫隙上附加的條件,所以它並不影響后邊的表達式去真正匹配這個縫隙之后的字符。這就類似 "\b",本身不匹配任何字符。"\b" 只是將所在縫隙之前、之后的字符取來進行了一下判斷,不會影響后邊的表達式來真正的匹配。
   

舉例1:表達式 "Windows (?=NT|XP)" 在匹配 "Windows 98, Windows NT, Windows 2000" 時,將只匹配 "Windows NT" 中的 "Windows ",其他的 "Windows " 字樣則不被匹配。

    舉例2:表達式 "(\w)((?=\1\1\1)(\1))+" 在匹配字符串 "aaa ffffff 999999999" 時,將可以匹配6個"f"的前4個,可以匹配9個"9"的前7個。這個表達式可以讀解成:重復4次以上的字母數字,則匹配其剩下最后2位之前的部分。當然,這個表達式可以不這樣寫,在此的目的是作為演示之用。

格式:"(?!xxxxx)",所在縫隙的右側,必須不能匹配 xxxxx 這部分表達式。

    舉例3:表達式 "((?!\bstop\b).)+" 在匹配 "fdjka ljfdl stop fjdsla fdj" 時,將從頭一直匹配到 "stop" 之前的位置,如果字符串中沒有 "stop",則匹配整個字符串。

    舉例4:表達式 "do(?!\w)" 在匹配字符串 "done, do, dog" 時,只能匹配 "do"。在本條舉例中,"do" 后邊使用 "(?!\w)" 和使用 "\b" 效果是一樣的。

表達式

方向

說明

(?=xxx)

正向預搜索(向右)

正向預搜索,判斷當前位置右側是否能匹配指定表達式

(?!xxx)

正向預搜索否定,判斷當前位置右側是否不能夠匹配指定表達式

(?<=xxx)

反向預搜索(向左)[ABAP不支持]

反向預搜索,判斷當前位置左側是否能夠匹配指定表達式

(?<!xxx)

反向預搜索否定,判斷當前位置左側是否不能夠匹配指定表達式

 

4、 其他補充

1>  在表達式 "\s","\d","\w","\b" 表示特殊意義的同時,其大寫字母表示相反的意義

表達式

可匹配

\S

匹配所有非空白字符("\s" 可匹配各個空白字符)

\D

匹配所有的非數字字符

\W

匹配所有的字母、數字、下划線以外的字符

\B

匹配非單詞邊界,即左右兩邊都是 "\w" 范圍或者左右兩邊都不是 "\w" 范圍時的字符縫隙

2>  在表達式中有特殊意義,需要添加 "\" 才能匹配該字符本身的字符匯總

字符

^

匹配輸入字符串的開始位置。要匹配 "^" 字符本身,請使用 "\^"

$

匹配輸入字符串的結尾位置。要匹配 "$" 字符本身,請使用 "\$"

( )

標記一個子表達式的開始和結束位置。要匹配小括號,請使用 "\(" 和 "\)"

[ ]

用來自定義能夠匹配 '多種字符' 的表達式。要匹配中括號,請使用 "\[" 和 "\]"

{ }

修飾匹配次數的符號。要匹配大括號,請使用 "\{" 和 "\}"

.

匹配除了換行符(\n)以外的任意一個字符。要匹配小數點本身,請使用 "\."

?

修飾匹配次數為 0 次或 1 次。要匹配 "?" 字符本身,請使用 "\?"

+

修飾匹配次數為至少 1 次。要匹配 "+" 字符本身,請使用 "\+"

*

修飾匹配次數為 0 次或任意次。要匹配 "*" 字符本身,請使用 "\*"

|

左右兩邊表達式之間 "或" 關系。匹配 "|" 本身,請使用 "\|"

 

四、ABAP中的應用

 

規則終於寫完了!其實和其他編程語言規則差不多啦!下面結合ABAP講講怎么使用吧,Let’s GO!

不過需要注意, SAP只能是ECC6或者更高版本才可以使用正則(ABAP supports POSIX regular expressions as of Release 7.00)

 

    在ABAP中定義了兩個類來實現相應功能,分別是

CL_ABAP_REGEX               regex就是regular expression的縮寫,里面的方法不是很多,可能用到的也就只有構造方法和REATE_MATCHER這個方法。

CL_ABAP_MATCHER     matcher匹配的意思,也就是說所有的匹配規則都和它有關,里面具體方法,se24去查看

 

其實正則表達式的應用無外乎三種:驗證(是否符合規則)、查找(包含提取)、替換

 

1、        驗證

實例1

IF CL_ABAP_MATCHER=>MATCHES( PATTERN = '\D+'
                             TEXT    = 'ZF25' )
   = ABAP_TRUE.
  WRITE 'IS NUMBER'.
ELSE.
  WRITE 'IS NOT NUMBER'.
ENDIF.

輸出結果:IS NOT NUMBER

解釋:CL_ABAP_MATCHER有一個靜態方法,直接進行匹配。

 

2、        查找

實例2

DATA:
  MATCHER TYPE REF TO CL_ABAP_MATCHER,
  MATCHES TYPE MATCH_RESULT_TAB,
  MATCH   LIKE LINE OF MATCHES,
  W_TEXT  TYPE STRING.
W_TEXT =  '<a id="MyLinks1_NewPostLink"'
& ' href="http://www.cnblogs.com/VerySky/admin/EditPosts.aspx?opt=1">'.
MATCHER = CL_ABAP_MATCHER=>CREATE( PATTERN  = 'http://.*(?=")'
                                   TEXT     = W_TEXT ).
MATCHES = MATCHER->FIND_ALL( ).
LOOP AT MATCHES INTO MATCH.
  WRITE:/ W_TEXT+MATCH-OFFSET(MATCH-LENGTH).
ENDLOOP.

輸出結果:http://www.cnblogs.com/VerySky/admin/EditPosts.aspx?opt=1

解釋:

  1. 創建match實例(創建規則),構造方法中有pattern參數輸入規則,IGNORE_CASE是否忽略大小寫,SIMPLE_REGEX是否使用簡單規則(具體參見F1幫助文檔),

B.在實例中有FIND_ALL(),FIND_NEXT()方法,可以用來查找。

 

這個方法是不是太麻煩了啊,不急有簡單的方法,其實就是字符串處理中用到的。

 

實例3

DATA: patt       TYPE string VALUE `n.?w`,
      text       TYPE string,
      result_tab TYPE match_result_tab.
FIELD-SYMBOLS <match> LIKE LINE OF result_tab.
FIND ALL OCCURRENCES OF REGEX patt IN
      `Everybody knows this is nowhere`
     RESULTS result_tab.
LOOP AT result_tab ASSIGNING <match>.
  WRITE: / <match>-offset, <match>-length.
ENDLOOP.

輸出結果:

11      3

24      3

 

實例4

DATA: STR TYPE STRING ,
      RESULT_TAB TYPE MATCH_RESULT_TAB ,
      WA LIKE LINE OF RESULT_TAB.
*找出STRING里面的雙字字符
str = 'abc我啊adfsf們'.
FIND ALL OCCURRENCES OF REGEX '[^\x00-\xff]*' IN STR RESULTS RESULT_TAB.
LOOP AT RESULT_TAB INTO WA.
  WRITE / STR+WA-OFFSET(WA-LENGTH).
ENDLOOP.

輸出結果:

我啊

解釋:大家都知道英文字母是單字節的,中文是雙字節的,但是在ABAP里面用strlen等方法是區別不出單雙字節的,這個實例中講的不失為一個很好的辦法。

 

3、        替換

 

實例4

DATA:
  MATCHER TYPE REF TO CL_ABAP_MATCHER,
  COUNT   TYPE I,
  W_TEXT  TYPE STRING,
  W_NEWTEXT TYPE STRING.
W_TEXT    = 'hubinshishuibuzhidao'.
W_NEWTEXT = 'FFF'.
MATCHER = CL_ABAP_MATCHER=>CREATE( PATTERN  = 'sh.?i'
                                   TEXT     = W_TEXT ).
WRITE:/ 'REPLACE BEFORE:', W_TEXT.
COUNT = MATCHER->REPLACE_ALL( NEWTEXT = W_NEWTEXT ).
WRITE:/ 'REPLACE COUNT IS:', COUNT.
WRITE:/ 'REPLACE AFTER:', W_TEXT.

輸出結果:

REPLACE BEFORE: hubinshishuibuzhidao

REPLACE COUNT IS:2

REPLACE AFTER: hubinshishuibuzhidao

大家肯定會說了,字符串前后沒有沒替換啊。注意修改的不是W_TEXT本身,他將修改后的值放到了MATCHER->TEXT即match類實例的屬性里面,我們只需令W_TEXT = MATCHER->TEXT即可。

      修改后

DATA:
  MATCHER TYPE REF TO CL_ABAP_MATCHER,
  COUNT   TYPE I,
  W_TEXT  TYPE STRING,
  W_NEWTEXT TYPE STRING.
W_TEXT    = 'hubinshishuibuzhidao'.
W_NEWTEXT = 'FFF'.
MATCHER = CL_ABAP_MATCHER=>CREATE( PATTERN  = 'sh.?i'
                                   TEXT     = W_TEXT ).
WRITE:/ 'REPLACE BEFORE:', W_TEXT.
COUNT = MATCHER->REPLACE_ALL( NEWTEXT = W_NEWTEXT ).

W_TEXT = MATCHER->TEXT.
WRITE:/ 'REPLACE COUNT IS:', COUNT.
WRITE:/ 'REPLACE AFTER:', W_TEXT.

輸出結果:

REPLACE BEFORE: hubinshishuibuzhidao

REPLACE COUNT IS:2

REPLACE AFTER: hubinFFFFFFbuzhidao

 

同樣這里也有簡單方法,字符串處理中的方法也是支持正則的

實例5

DATA TEXT TYPE STRING VALUE '-dfufdud-'.
REPLACE ALL OCCURRENCES OF REGEX 'u' IN text WITH 'x'.
WRITE TEXT.

輸出結果:

-dfxfdxd-

 

4、        方法語句總結

 

類結

CL_ABAP_MATCHER類里的重要方法

字符串處理中,支持正則的語句 

五、補充

 

這里給出ABAP F1幫助中給出的一個特殊字符的列表,很有用的

 

Special Characters in Regular Expressions

The following tables summarize the special characters in regular expressions:

Escape character

Special character

Meaning

\

Escape character for special characters

 

Special character for single character strings

Special character

Meaning

.

Placeholder for any single character

\C

Placeholder for any single character

\d

Placeholder for any single digit

\D

Placeholder for any character other than a digit

\l

Placeholder for any lower-case letter

\L

Placeholder for any character other than a lower-case letter

\s

Placeholder for a blank character

\S

Placeholder for any character other than a blank character

\u

Placeholder for any upper-case letter

\U

Placeholder for any character other than an upper-case letter

\w

Placeholder for any alphanumeric character including _

\W

Placeholder for any non-alphanumeric character except for _

[ ]

Definition of a value set for single characters

[^ ]

Negation of a value set for single characters

[ - ]

Definition of a range in a value set for single characters

[ [:alnum:] ]

Description of all alphanumeric characters in a value set

[ [:alpha:] ]

Description of all letters in a value set

[ [:blank:] ]

Description for blank characters and horizontal tabulators in a value set

[ [:cntrl:] ]

Description of all control characters in a value set

[ [:digit:] ]

Description of all digits in a value set

[ [:graph:] ]

Description of all graphic special characters in a value set

[ [:lower:] ]

Description of all lower-case letters in a value set

[ [:print:] ]

Description of all displayable characters in a value set

[ [:punct:] ]

Description of all punctuation characters in a value set

[ [:space:] ]

Description of all blank characters, tabulators, and carriage feeds in a value set

[ [:unicode:] ]

Description of all Unicode characters in a value set with a code larger than 255

[ [:upper:] ]

Description of all upper-case letters in a value set

[ [:word:] ]

Description of all alphanumeric characters in a value set, including _

[ [:xdigit:] ]

Description of all hexadecimal digits in a value set

\a \f \n \r \t \v

Diverse platform-specific control characters

[..]

Reserved for later enhancements

[==]

Reserved for later enhancements

 

Special characters for character string patterns

Special character

Meaning

{n}

Concatenation of n single characters

{n,m}

Concatenation of at least n and a maximum of m single characters

{n,m}?

Reserved for later enhancements

?

One or no single characters

*

Concatenation of any number of single characters including 'no characters'

*?

Reserved for later enhancements

+

Concatenation of any number of single characters excluding 'no characters'

+?

Reserved for later enhancements

|

Linking of two alternative expressions

( )

Definition of subgroups with registration

   

(?: )

Definition of subgroups without registration

\1, \2, \3 ...

Placeholder for the register of subgroups

\Q ... \E

Definition of a string of literal characters

(? ... )

Reserved for later enhancements

 

Special characters for search strings

Special character

Meaning

^

Anchor character for the start of a line

\A

Anchor character for the start of a character string

$

Anchor character for the end of a line

\Z

Anchor character for the end of a character string

\<

Start of a word

\>

End of a word

\b

Start or end of a word

\B

Space between characters within a word

(?= )

Preview condition

(?! )

Negated preview condition

 

Special characters for replacement texts

Special character

Meaning

$0, $&

Placeholder for the whole found location

$1, $2, $3...

Placeholder for the register of subgroups

$`

Placeholder for the text before the found location

$'

Placeholder for the text after the found location

 

從上面的列表可以看出,ABAP中對“非貪婪模式”(ABAP啊,你不支持啊,你太貪婪了)和“反向預搜索”暫不支持,希望以后能夠趕緊擴展功能吧,畢竟很強大的說。

 

正則表達式是需要反復修改,最后才能找到最匹配的規則的,為此ABAP Program里也提供了一個,測試用得小程序,SE38里找DEMO_REGEX_TOY運行即可。

 

在ABAP培訓資料里面有一個很有意思的表達式,大家有興趣可以看一下它能匹配什么文字

^(?=\d)(?:(?:31(?!.(?:0?[2469]|11))|(?:30

|29)(?!.0?2)|29(?=.0?2.(?:(?:(?:1[6-9]|[2

-9]\d)?(?:0[48]|[2468][048]|[13579][26])|

(?:(?:16|[2468][048]|[3579][26])00)))(?:\

x20|$))|(?:2[0-8]|1\d|0?[1-9]))([-./])(?:

1[012]|0?[1-9])\1(?:1[6-9]|[2-9]\d)?\d\d(

?:(?=\x20\d)\x20|$))?(((0?[1-9]|1[012])(:

[0-5]\d){0,2}(\x20[AP]M))|([01]\d|2[0-3])

(:[0-5]\d){1,2})?$

 

 

以下附上網上的一些資料:

 

表達式全集

正則表達式有多種不同的風格。下表是在PCRE中元字符及其在正則表達式上下文中的行為的一個完整列表:

字符

描述

\

將下一個字符標記為一個特殊字符、或一個原義字符、或一個向后引用、或一個八進制轉義符。例如,“n”匹配字符“n”。“\n”匹配一個換行符。序列“\\”匹配“\”而“\(”則匹配“(”。

^

匹配輸入字符串的開始位置。如果設置了RegExp對象的Multiline屬性,^也匹配“\n”或“\r”之后的位置。

$

匹配輸入字符串的結束位置。如果設置了RegExp對象的Multiline屬性,$也匹配“\n”或“\r”之前的位置。

*

匹配前面的子表達式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等價於{0,}。

+

匹配前面的子表達式一次或多次。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等價於{1,}。

?

匹配前面的子表達式零次或一次。例如,“do(es)?”可以匹配“do”或“does”中的“do”。?等價於{0,1}。

{n}

n是一個非負整數。匹配確定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的兩個o。

{n,}

n是一個非負整數。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等價於“o+”。“o{0,}”則等價於“o*”。

{n,m}

mn均為非負整數,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”將匹配“fooooood”中的前三個o。“o{0,1}”等價於“o?”。請注意在逗號和兩個數之間不能有空格。

?

當該字符緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})后面時,匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串,而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如,對於字符串“oooo”,“o+?”將匹配單個“o”,而“o+”將匹配所有“o”。

.

匹配除“\n”之外的任何單個字符。要匹配包括“\n”在內的任何字符,請使用像“[.\n]”的模式。

(pattern)

匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中則使用$0…$9屬性。要匹配圓括號字符,請使用“\(”或“\)”。

(?:pattern)

匹配pattern但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以后使用。這在使用或字符“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達式。

(?=pattern)

正向預查,在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。預查不消耗字符,也就是說,在一個匹配發生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預查的字符之后開始。

(?!pattern)

負向預查,在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。預查不消耗字符,也就是說,在一個匹配發生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預查的字符之后開始

x|y

匹配x或y。例如,“z|food”能匹配“z”或“food”。“(z|f)ood”則匹配“zood”或“food”。

[xyz]

字符集合。匹配所包含的任意一個字符。例如,“[abc]”可以匹配“plain”中的“a”。

[^xyz]

負值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“p”。

[a-z]

字符范圍。匹配指定范圍內的任意字符。例如,“[a-z]”可以匹配“a”到“z”范圍內的任意小寫字母字符。

[^a-z]

負值字符范圍。匹配任何不在指定范圍內的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范圍內的任意字符。

\b

匹配一個單詞邊界,也就是指單詞和空格間的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。

\B

匹配非單詞邊界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。

\cx

匹配由x指明的控制字符。例如,\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則,將c視為一個原義的“c”字符。

\d

匹配一個數字字符。等價於[0-9]。

\D

匹配一個非數字字符。等價於[^0-9]。

\f

匹配一個換頁符。等價於\x0c和\cL。

\n

匹配一個換行符。等價於\x0a和\cJ。

\r

匹配一個回車符。等價於\x0d和\cM。

\s

匹配任何空白字符,包括空格、制表符、換頁符等等。等價於[\f\n\r\t\v]。

\S

匹配任何非空白字符。等價於[^\f\n\r\t\v]。

\t

匹配一個制表符。等價於\x09和\cI。

\v

匹配一個垂直制表符。等價於\x0b和\cK。

\w

匹配包括下划線的任何單詞字符。等價於“[A-Za-z0-9_]”。

\W

匹配任何非單詞字符。等價於“[^A-Za-z0-9_]”。

\xn

匹配n,其中n為十六進制轉義值。十六進制轉義值必須為確定的兩個數字長。例如,“\x41”匹配“A”。“\x041”則等價於“\x04&1”。正則表達式中可以使用ASCII編碼。.

\num

匹配num,其中num是一個正整數。對所獲取的匹配的引用。例如,“(.)\1”匹配兩個連續的相同字符。

\n

標識一個八進制轉義值或一個向后引用。如果\n之前至少n個獲取的子表達式,則n為向后引用。否則,如果n為八進制數字(0-7),則n為一個八進制轉義值。

\nm

標識一個八進制轉義值或一個向后引用。如果\nm之前至少有nm個獲得子表達式,則nm為向后引用。如果\nm之前至少有n個獲取,則n為一個后跟文字m的向后引用。如果前面的條件都不滿足,若nm均為八進制數字(0-7),則\nm將匹配八進制轉義值nm

\nml

如果n為八進制數字(0-3),且ml均為八進制數字(0-7),則匹配八進制轉義值nml。

\un

匹配n,其中n是一個用四個十六進制數字表示的Unicode字符。例如,\u00A9匹配版權符號(?)。

 

常用的正則表達式

正則表達式用於字符串處理、表單驗證等場合,實用高效。現將一些常用的表達式收集於此,以備不時之需。

用戶名:/^[a-z0-9_-]{3,16}$/

密碼:/^[a-z0-9_-]{6,18}$/

十六進制值:/^#?([a-f0-9]{6}|[a-f0-9]{3})$/

電子郵箱:/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/

URL:/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/

IP 地址:/^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/

HTML 標簽:/^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$/

Unicode編碼中的漢字范圍:/^[u4e00-u9fa5],{0,}$/

匹配中文字符的正則表達式: [\u4e00-\u9fa5]
評注:匹配中文還真是個頭疼的事,有了這個表達式就好辦了

匹配雙字節字符(包括漢字在內):[^\x00-\xff]
評注:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)

匹配空白行的正則表達式:\n\s*\r
評注:可以用來刪除空白行

匹配HTML標記的正則表達式:<(\S*?)[^>]*>.*?</\1>|<.*? />
評注:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對於復雜的嵌套標記依舊無能為力

匹配首尾空白字符的正則表達式:^\s*|\s*$
評注:可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式

匹配Email地址的正則表達式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
評注:表單驗證時很實用

匹配網址URL的正則表達式:[a-zA-z]+://[^\s]*
評注:網上流傳的版本功能很有限,上面這個基本可以滿足需求

匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下划線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
評注:表單驗證時很實用

匹配國內電話號碼:\d{3}-\d{8}|\d{4}-\d{7}
評注:匹配形式如 0511-4405222 或 021-87888822

匹配騰訊QQ號:[1-9][0-9]{4,}
評注:騰訊QQ號從10000開始

匹配中國大陸郵政編碼:[1-9]\d{5}(?!\d)
評注:中國大陸郵政編碼為6位數字

匹配身份證:\d{15}|\d{18}
評注:中國大陸的身份證為15位或18位

匹配ip地址:\d+\.\d+\.\d+\.\d+
評注:提取ip地址時有用

匹配特定數字:
^[1-9]\d*$    //匹配正整數
^-[1-9]\d*$   //匹配負整數
^-?[1-9]\d*$   //匹配整數
^[1-9]\d*|0$  //匹配非負整數(正整數 + 0)
^-[1-9]\d*|0$   //匹配非正整數(負整數 + 0)
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$   //匹配正浮點數
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$  //匹配負浮點數
^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$  //匹配浮點數
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$   //匹配非負浮點數(正浮點數 + 0)
^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$  //匹配非正浮點數(負浮點數 + 0)
評注:處理大量數據時有用,具體應用時注意修正

匹配特定字符串:
^[A-Za-z]+$  //匹配由26個英文字母組成的字符串
^[A-Z]+$  //匹配由26個英文字母的大寫組成的字符串
^[a-z]+$  //匹配由26個英文字母的小寫組成的字符串
^[A-Za-z0-9]+$  //匹配由數字和26個英文字母組成的字符串
^\w+$  //匹配由數字、26個英文字母或者下划線組成的字符串

如何寫出高效率的正則表達式

如果純粹是為了挑戰自己的正則水平,用來實現一些特效(例如使用正則表達式計算質數、解線性方程),效率不是問題;如果所寫的正則表達式只是為了滿足一兩次、幾十次的運行,優化與否區別也不太大。但是,如果所寫的正則表達式會百萬次、千萬次地運行,效率就是很大的問題了。我這里總結了幾條提升正則表達式運行效率的經驗(工作中學到的,看書學來的,自己的體會),貼在這里。如果您有其它的經驗而這里沒有提及,歡迎賜教。

為行文方便,先定義兩個概念。

誤匹配:指正則表達式所匹配的內容范圍超出了所需要范圍,有些文本明明不符合要求,但是被所寫的正則式“擊中了”。例如,如果使用\d{11}來匹配11位的手機號,\d{11}不單能匹配正確的手機號,它還會匹配98765432100這樣的明顯不是手機號的字符串。我們把這樣的匹配稱之為誤匹配。

漏匹配:指正則表達式所匹配的內容所規定的范圍太狹窄,有些文本確實是所需要的,但是所寫的正則沒有將這種情況囊括在內。例如,使用\d{18}來匹配18位的身份證號碼,就會漏掉結尾是字母X的情況。

寫出一條正則表達式,既可能只出現誤匹配(條件寫得極寬松,其范圍大於目標文本),也可能只出現漏匹配(只描述了目標文本中多種情況種的一種),還可能既有誤匹配又有漏匹配。例如,使用\w+\.com來匹配.com結尾的域名,既會誤匹配abc_.com這樣的字串(合法的域名中不含下划線,\w包含了下划線這種情況),又會漏掉ab-c.com這樣的域名(合法域名中可以含中划線,但是\w不匹配中划線)。

精准的正則表達式意味着既無誤匹配且無漏匹配。當然,現實中存在這樣的情況:只能看到有限數量的文本,根據這些文本寫規則,但是這些規則將會用到海量的文本中。這種情況下,盡可能地(如果不是完全地)消除誤匹配以及漏匹配,並提升運行效率,就是我們的目標。本文所提出的經驗,主要是針對這種情況。

掌握語法細節。正則表達式在各種語言中,其語法大致相同,細節各有千秋。明確所使用語言的正則的語法的細節,是寫出正確、高效正則表達式的基礎。例如,perl中與\w等效的匹配范圍是[a-zA-Z0-9_];perl正則式不支持肯定逆序環視中使用可變的重復(variable repetition inside lookbehind,例如(?<=.*)abc),但是.Net語法是支持這一特性的;又如,JavaScript連逆序環視(Lookbehind,如(?<=ab)c)都不支持,而perl和python是支持的。《精通正則表達式》第3章《正則表達式的特性和流派概覽》明確地列出了各大派系正則的異同,這篇文章也簡要地列出了幾種常用語言、工具中正則的比較。對於具體使用者而言,至少應該詳細了解正在使用的那種工作語言里正則的語法細節。

先粗后精,先加后減。使用正則表達式語法對於目標文本進行描述和界定,可以像畫素描一樣,先大致勾勒出框架,再逐步在局步實現細節。仍舉剛才的手機號的例子,先界定\d{11},總不會錯;再細化為1[358]\d{9},就向前邁了一大步(至於第二位是不是3、5、8,這里無意深究,只舉這樣一個例子,說明逐步細化的過程)。這樣做的目的是先消除漏匹配(剛開始先盡可能多地匹配,做加法),然后再一點一點地消除誤匹配(做減法)。這樣有先有后,在考慮時才不易出錯,從而向“不誤不漏”這個目標邁進。

留有余地。所能看到的文本sample是有限的,而待匹配檢驗的文本是海量的,暫時不可見的。對於這樣的情況,在寫正則表達式時要跳出所能見到的文本的圈子,開拓思路,作出“戰略性前瞻”。例如,經常收到這樣的垃圾短信:“發*票”、“發#漂”。如果要寫規則屏蔽這樣煩人的垃圾短信,不但要能寫出可以匹配當前文本的正則表達式 發[*#](?:票|漂),還要能夠想到 發.(?:票|漂|飄)之類可能出現的“變種”。這在具體的領域或許會有針對性的規則,不多言。這樣做的目的是消除漏匹配,延長正則表達式的生命周期。

明確。具體說來,就是謹慎用點號這樣的元字符,盡可能不用星號和加號這樣的任意量詞。只要能確定范圍的,例如\w,就不要用點號;只要能夠預測重復次數的,就不要用任意量詞。例如,寫析取twitter消息的腳本,假設一條消息的xml正文部分結構是<span class=”msg”>…</span>且正文中無尖括號,那么<span class=”msg”>[^<]{1,480}</span>這種寫法的思路要好於<span class=”msg”>.*</span>,原因有二:一是使用[^<],它保證了文本的范圍不會超出下一個小於號所在的位置;二是明確長度范圍,{1,480},其依據是一條twitter消息大致能的字符長度范圍。當然,480這個長度是否正確還可推敲,但是這種思路是值得借鑒的。說得狠一點,“濫用點號、星號和加號是不環保、不負責任的做法”。

不要讓稻草壓死駱駝。每使用一個普通括號()而不是非捕獲型括號(?:…),就會保留一部分內存等着你再次訪問。這樣的正則表達式、無限次地運行次數,無異於一根根稻草的堆加,終於能將駱駝壓死。養成合理使用(?:…)括號的習慣。

寧簡勿繁。將一條復雜的正則表達式拆分為兩條或多條簡單的正則表達式,編程難度會降低,運行效率會提升。例如用來消除行首和行尾空白字符的正則表達式s/^\s+|\s+$//g;,其運行效率理論上要低於s/^\s+//g; s/\s+$//g; 。這個例子出自《精通正則表達式》第五章,書中對它的評論是“它幾乎總是最快的,而且顯然最容易理解”。既快又容易理解,何樂而不為?工作中我們還有其它的理由要將C==(A|B)這樣的正則表達式拆為A和B兩條表達式分別執行。例如,雖然A和B這兩種情況只要有一種能夠擊中所需要的文本模式就會成功匹配,但是如果只要有一條子表達式(例如A)會產生誤匹配,那么不論其它的子表達式(例如B)效率如何之高,范圍如何精准,C的總體精准度也會因A而受到影響。

巧妙定位。有時候,我們需要匹配的the,是作為單詞的the(兩邊有空格),而不是作為單詞一部分的t-h-e的有序排列(例如together中的the)。在適當的時候用上^,$,\b等等定位錨點,能有效提升找到成功匹配、淘汰不成功匹配的效率。

 

附上資料:

1、本文word版:http://115.com/file/c2fac2o9

2、正則表達式ABAP官方資料:http://115.com/file/beucnm53

3、正則表達式查閱文檔:http://115.com/file/c2fackc0


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM