正則表達式第一篇：元字符

本文轉載自查看原文 2016-10-25 18:44 3167 正則表達式/ 元字符

規則表達式（Regular Expression），又稱作正則表達式，通常用於檢索、替換符合指定規則的文本，正則表達式定義的規則，稱作模式（Pattern），即正則表達式的作用是從文本中查找到符合模式的文本。

一，正則表達式的元字符

正則表達式定義的模式，是由"\"+普通字符構成的，把“\”字符稱作轉義字符，是因為它把普通的字符轉義為有特殊含義的元字符。注意，正則表達式是區分大小寫的，可以通過表達式選擇來忽略大小寫限制。

1，常用元字符

用以匹配特定的字符（字母，數字，符號），注意字母是區分大小寫的：

. 匹配任意字符（不包括換行符）
^ 匹配開始位置，多行模式下匹配每一行的開始
$ 匹配結束位置，多行模式下匹配每一行的結束
\A 匹配字符串的開始位置
\Z 匹配字符串的結束位置
\b 匹配位於每個單詞的開始或結束位置
\B 　匹配不是單詞開頭和結束的位置，即每個單詞的中間位置
\d 匹配一個數字，相當於 [0-9]
\D 匹配非數字,相當於 [^0-9]
\s 匹配任意空白字符，相當於 [ \t\n\r\f\v]
\S 匹配非空白字符，相當於 [^ \t\n\r\f\v]
\w 匹配數字、字母、下划線中任意一個字符，相當於 [a-zA-Z0-9_]
\W 匹配非數字、字母、下划線中的任意字符，相當於 [^a-zA-Z0-9_]
\ 轉義字符，把元字符轉義為普通字符

2，重復字符或分組

指定前面一個字符或分組重復的次數：

* ：重復零次或更多次
+ ：重復一次或更多次
? ：重復零次或一次
{n} ：重復n次
{n,} ：重復n次或更多次
{n,m} ：重復n到m次

3，分組，轉義，分支

這些字符有特定的含義和用途：

() ：用小括號表示一個分組
\ ：轉義字符，將特殊字符轉移為普通字符，例如："\(" 表示小括號“（”，小括號不再作為特殊字符
| ：分支，子表達式之間是“或”的關系
[...] ：指定限定字符列表，一個字符必須匹配列表中任意一個字符，在中括號中指定匹配的字符列表，例如：[aeiou] 一個字符必須aeiou中的任意一個；
[-]：連字符，在字符組中，連字符出現在字符中間，表示連續的字符序列，例如，[0-9]表示從0到9的數字；
[^... ] ：指定排除字符列表，一個字符不能是排除列表中的任意一個字符，中括號中指定排除的字符列表，例如：[^aeiou] 一個字符不能是aeiou中的任意一個；

4，正則表達式中需要轉義的字符

* . ? + $ ^ [ ] ( ) { } | \ ，在這些字符前面加上轉義字符\，才表示字面意義上的字符。

二，字符類，匹配字符

匹配字符是指在元字符所在的位置處，匹配一個字符：

. 匹配任意字符，不包括換行符
\d 匹配一個數字，相當於 [0-9]
\D 匹配非數字,相當於 [^0-9]
\s 匹配任意空白字符，相當於 [ \t\n\r\f\v]
\S 匹配非空白字符，相當於 [^ \t\n\r\f\v]
\w 匹配數字、字母、下划線中任意一個字符，相當於 [a-zA-Z0-9_]
\W 匹配非數字、字母、下划線中的任意字符，相當於 [^a-zA-Z0-9_]
\char 轉義字符，跟在其后的字符將失去作為特殊元字符的含義，例如\.只能匹配.，不能再匹配任意字符
普通字符普通字符直接匹配，注意大小寫

注意：正則表達式是區分大小寫的，元字符的大寫和小寫形式表示的含義是不同的；文本字符的大小寫也是不同的。

元字符實際上是由字符“\”和普通字符構成的，“\”稱作轉義字符，也就是說，“\”的作用是把普通字符轉換為特殊的字符。由於元字符也是文本中的普通字符，當需要匹配這些特殊字符時，例如，文本中包含"\","."等特殊字符時，必須使用轉義字符，把特殊字符轉義為普通字符。對於轉義字符本身，\\表示一個“\”。

使用\s匹配所有空白字符，包括：空格符，制表符，換行符和回車符。

1，匹配任意空白字符

2，匹配任意非空白字符

3，匹配數字、字母、下划線中任意一個字符

4，匹配非數字、字母、下划線中任意一個字符

5，匹配一個單詞

單詞的開始和結束，使用\b，單詞是由多個字符構成的，至少由一個，因此是\w+，把元字符組合成一個匹配單詞的正則表達式是：\b\w+\b

三，定位符，匹配位置

元字符中匹配位置的元字符主要是：

^ 匹配開始位置，多行模式下匹配每一行的開始
$ 匹配結束位置，多行模式下匹配每一行的結束
\b 匹配位於每個單詞的開始或結束的位置
\B 匹配每個每個單詞的不是開始或結束的位置，即單詞中間的位置
\A 匹配字符串的開始位置
\Z 匹配字符串的結束位置

匹配位置的元字符不占用字符，只是匹配一個位置，例如，\b 表示匹配一個位置，並不占用任何字符，這個位置的一側是單詞字符，一側為非單詞字符。

1，匹配每行的開始位置

2，匹配結束位置

3，匹配每個單詞的開始和結束位置

4，匹配每個單詞的中間位置

5，匹配字符串開始的位置

在多行模式下，只匹配字符串的起始位置

6，匹配字符串的結束位置

在多行模式下，只匹配字符串的結束位置

四，字符組

字符組是若干字符的組合，表示只匹配其中一個字符：

[...] 字符組，一個字符的集合，可匹配其中任意一個字符
[ - ] 連字符，表示一個范圍
[^...] 排除字符

1，字符組

如果要匹配字符grey和gray，可以使用字符組： gr[ae]y，該正則表達式的意思是：先找到字符gr，然后跟着一個a或e，最后是一個字符y。

注意：在字符組以外，普通字符（如gr[ae]y中的g和r）都有接下來是（and then）的意思，這與字符組內部的情況是完全相反的。字符組的內容是在同一個位置能夠匹配的若干字符，所以他的意思是“或”。如“[0123456789]”就是匹配1到9之間的任意一個數字。如果“<H[1234]>”就是用來匹配<H1>，<H2>，<H3>，<H4>。

2，連字符

在字符組內部“-”（連字符）出現在兩個字符中間，表示一個范圍，例如：

“<H[1234]>”與“<H[1-4]>”是完全一樣的；
[0-9]和[a-z]是常用的匹配數字和小寫字母的簡便方式
多重范圍也是允許的,如“[0123456789abcdeABCDE]“可以寫作”[0-9a-eA-E]“

注意：只有在字符組內部，連字符才是元字符，否則他就是只能匹配普通的連字符號。連字符還有一個例外，即使在字符組內部，如果連字符出現在字符組的開頭（或排除型字符組的開頭，下面會講，如[^-]），那也不是元字符而只是一個普通字符。同樣的道理，問號和點號（后面會講到這兩個元字符）通常被當做元字符處理，但在字符組里則不是如此。只有連字符和^(下面馬上講到，是排除字符)才可能是字符組里的元字符(但是轉義符，字符組簡記法仍然有效，即[\da-zA-Z]或[^\da-zA-Z]或[\\"]中的\仍然有轉義的含義，\d仍然代表數字，\\"仍然代表字符串中的“\"”單獨的\不會匹配任何字符，\\會匹配字符'\')。相當於字符組內部有一個自己獨立的小世界，有自己的規則。

3，字符組內的排除字符

用“[^…]”取代“[…]”,這個字符組就會匹配任何未列出的字符。例如”[^1-8]”匹配除了1到8以外的任何字符。注意：這句話有兩層含義，一個是排除1-8字符，另一個是一定要匹配一個字符。
例子：匹配q后面不是u的字符，正則是”q[^u]”。那么qi會被匹配。那Qantas呢？Iraq呢？答案是這兩個都不會被匹配，一個是因為Q是大寫，一個是因為q在最后，后面沒有除了u以外的任何字符。再次注意，排除型字符組也是要匹配一個字符的。

五，量詞

量詞用於設置匹配前面一個字符的次數：

* 匹配前一個元字符0到多次
+ 匹配前一個元字符1到多次
? 匹配前一個元字符0到1次
{m,n} 匹配前一個元字符m到n次

問號，加號和星號統稱為量詞，表示前面一個字符的重復次數。

1，可選字符 ?

這些元字符，只用於匹配相鄰的前一個字符；如果要匹配多個字符，需要使用()，那么用於表示()內的字符重復，例如：

對於正則 colou?r，表示color或colour， “u?”表示：u要么出現一次，要么不出現，元字符？只作用於前面緊鄰的元素；
對於正則 4(th)?，用於表示4或4th，(th)?表示：th要么出現一次，要么不出現，當元字符？前面緊鄰的元素是()時，把()作為一個元素來對待。

把()作為一個整體來看待，是一個元素，括號內的元素可以很多。

2，“+(加號)”和”*(星號)”

+和*的作用與？類似，元字符”+”表示“前面緊鄰的元素出現一次或多次”；而元字符”*”表示“前面緊鄰的元素不出現或出現任意多次”，換種說法就是”*”表示匹配盡可能多的次數，但如果一次都不匹配也沒關系。”+”表示匹配盡可能多的次數，但如果一次都不匹配就報告失敗。

3，區間量詞

區間量詞“{min, max}” 表示重復次數的范圍，其中min為下限，如果min為空，表示沒有下限；max為上線，如果max為空，表示沒有上限。例如，對於正則 ”a{3,12}”表示能夠容許a出現3到12次，用區間量詞來表示其他量詞：問號對應“{0,1}”，加號對應”{1,}”，星號對應”{0,}”

六，選擇分支

元字符“|”，表示“或（or）”關系，表示從多個候選的子表達式中，只需要匹配一個。子表達式的范圍是由()來限制的，如果沒有()，那么以元字符“|”，把表達式分割為兩個子表達式，例如：

“Bob”和“Robert”是兩個表達式，通過元字符"|"把這兩個表達式組合成一個表達式：“Bob|Robert”，表示只需要匹配其中任意一個子表達式即可。
對於上面的“gr[ea]y”例子，還可以寫作“grey|gray”或者“gr(a|e)y”，后者用括號來划定多選結構的范圍
請注意，“gr[a|e]y”不符合我們的需求，在這里，“|”只是一個和“a”與“e”一樣的普通字符，在字符組內部|不是元字符。

“gr[ea]y”與“gr(a|e)y”的例子可能會讓人覺得多選結構與字符組沒太大的區別，但是不要混淆這兩個概念。一個字符組只能匹配目標文本中的單個字符，而每個多選結構自身可能是完整的正則表達式，都可以匹配任意長度的文本。

比較”^From|Subject|Date:*”和”^(From|Subject|Date):*”會發現匹配結果大不相同，第一個表達式由3個多選分支構成，能匹配”^From”或”Subject”或”Date:*”,實用性不大。我們希望在每一個多選分支前都有脫字符，之后都有”:*”，所以應該使用括號來限制這些多選分支： ”^(From|Subject|Date):*”，含義是匹配以“From:*”或“Subject:*”或“Date:*”開頭的文本行。