正則表達式通常包含字母文本(Literaltext)和元字符(metacharacter)
字母文本指的是普通文本如"abcde"可匹配字符串中任何包含"abcde"的字符串。
元字符則更加靈活運用通用的表達式匹配所有符合此表達式規律的字符串。
C#正則表達式語法一、
匹配單個字符 []——從中選擇一個字符匹配
中間支持的類型:單詞字符([ae])、非單詞字符([!?,;@#$*])、字母范圍([A-Z])、數字范圍([0])
eg.正則表達式[ae]ffect
可匹配字符串 affect,effect
(此例中"[ae]"為元字符,"ffect"為字母文本)
注意:
1.要在字符類中匹配連字符,那么把連字符號作為第一個字符列出即可。
2.可以在單個正則表達式中包含多個字符類。
eg.[01][0-9]:[0-5][0-9][ap]m可以用來匹配如12:59pm格式的所有時間
^——排除某些字符(在[]中表此意,還可表示字符串的開頭)
eg.正則表達式m[^a]t
可匹配字符串
不可匹配字符串 met,mit,m&t……mat
C#正則表達式語法
二、匹配特殊字符
可以使用的特殊字符:
\t——匹配制表符
\r——匹配硬回車符
\f——匹配換頁符
\n——匹配換行符
描述表示字符類的元字符:
.——匹配任何除了\n以外的字符(或者在單行模式中的任何字符)
\w——匹配任何單詞字符(任何字母或數字)
\W——匹配任何非單詞字符(除了字母和數字以外的任何字符)
\s——匹配任何空白字符(包括空格、換行、制表符等)
\S——匹配任何非空白字符(除了空格、換行、制表符等的任何字符)
\d——匹配任何數字字符(0~9的數字)
\D——匹配任何非數字字符(除了0~9以外的任何字符)
表示字符串中字符位置:
^——匹配字符串的開頭(或者多行模式下行的開頭)。
$——匹配字符串的結尾,或者是字符串結尾“\n”之前的最后一個字符,或者是多行模式中的行結尾。
\A——匹配字符串的開頭(忽略多行模式)
\Z——匹配字符串的結尾或字符串結尾“\n”之前的最后一個字符(忽略多行模式)。
\z——匹配字符串的結尾。
\G——匹配當前搜索開始的位置。
\b——匹配單詞的邊界。
\B——匹配單詞的非邊界。
注意:
1.句點字符(.)特別有用。可以用它來表示任何一個字符。
eg.正則表達式01.17.84
可匹配字符串 01/17/84,01-17-84,011784,01.17.84
2.可以使用\b匹配單詞的邊界
eg.正則表達式
可匹配字符串 \blet\blet
不可匹配字符串letter,hamlet
3.\A和\z在確保字符串所包含的是某個表達式,而不是其他內容時很用。
eg.要判斷Text控件是否包含單詞"sophia",而不含任何額外的字符、換行符或者空白。
\Asophia\z
4.句點字符(.)具有特殊的含義,若要表示字母字符本身的含義,在前面加一個反斜杠:\.
C#正則表達式語法三、
匹配二選一的字符序列
|——匹配二選一
eg.正則表達式col(o|ou)r
可匹配字符串 color,colour
注意:\b(bill|ted)和\bbill|ted是不同的。
后者還可以匹配"malted"因為\b元字符只應用於"bill"。
C#正則表達式語法四、
用量詞匹配 *——匹配0次或多次 +——匹配1次或多次 ?——匹配0次或1次 {n}——恰好匹配n次 {n,}——至少匹配n次 {n,m}——至少匹配n次,
但不多於m次
eg.正則表達式brothers?
可匹配字符串 brother,brothers
eg.正則表達式\bp\d{3,5}
可匹配字符串 \b以p開頭,且后跟3~5個數字結尾
注意:也可以把量詞與()一起使用,以便把該量詞應用到整個字母序列。
eg.正則表達式(The)?schoolisbeautiful.
可匹配字符串 schoolisbeautiful,Theschoolisbeautiful.
C#正則表達式語法五、
識別正則表達式和貪婪 有些量詞是貪婪的(greedy).他們會盡可能多的匹配字符。
如量詞*匹配0個或多個字符。假設要匹配字符串中任何HTML標簽。你可能會用如下正則表達式:
<.*>
現有字符串A<i>quantifier</i>canbe<big>greedy</big>
結果<.*>把<i>quantifier</i>canbe<big>greedy</big>都匹配上了。
要解決該問題,需要與量詞一起使用一個特殊的非貪婪字符“?”,因此表達式變化如下:
<.*?>
這樣就可以正確匹配<i>、</i>、<big>、</big>。
?能強制量詞盡可能少地匹配字符,?還可以用在以下幾個量詞中:
*?——非貪婪的量詞* +?——非貪婪的量詞+ ??——非貪婪的量詞? {n}?——非貪婪的量詞{n} {n,}?——非貪婪的量詞
{n,} {n,m}?——非貪婪的量詞{n,m}
C#正則表達式語法六、
捕獲和反向引用 捕獲組(capturegroup)就像是正則表達式中的變量。
捕獲組可以捕獲正則表達式中的字符模式,並且由正則表達式后面的編號或名稱來引用改模式。
()——用來捕獲其中的字符串
\數字——用編號來引用
eg.
正則表達式 (\w)(\w)\2\1
可匹配字符串abba
注意:
1.反向引用用來匹配html標簽非常有效如<(\w+)></\1>可以匹配<table></table>等類似格式的標簽。
2.默認情況下,只要使用圓括號,就會捕獲圓括號內所包含的字符,可以使用n選項來禁用這個默認行為(在第7條里會詳細介紹),
或者添加?:到圓括號中。eg.(?:sophia)或(?n:sophia)此時不會捕獲sophia。
(?<捕獲組名稱>)\k<捕獲組名稱>——用名稱來引用
eg.
正則表達式(?<sophia>\w)abc\k<sophia>
可匹配字符串 xabcx
注意:在替換模式中使用捕獲組的格式略有不同,要用$1、$2等來按數值引用捕獲,用${sophia}等名稱來按名稱引用捕獲組
C#正則表達式語法七、
設置正則表達式的選項
eg.
stringstr="<h4>sophia</h4>"
RegExobjRegEx=newRegEx("<h(d)>(.*?)</h1>");
Response.Write(objRegEx.Replace(str,"<fontsize=$1>$2</font>"));
i——所執行的匹配是不區分大小寫的(.net中的屬性為IgnoreCase) m——指定多行模式(.net中的屬性為Multiline)
n——只捕獲顯示命名或編號的組(.net中的屬性為ExplicitCapture) c——編譯正則表達式,這樣會產生較快的執行速度,但啟動會變慢(.net中的屬性為Compiled)
s——指定單行模式(.net中的屬性為SingleLine) x——消除非轉義空白字符和注釋(.net中的屬性為IgnorePatternWhitespace)
r——搜索從右到左進行(.net中的屬性為RightToLeft) -——表示禁用。
eg.(?im-r:sophia)允許不區分大小寫匹配sophia,使用多行模式,但禁用了從右到左的匹配。
注意:
1.m會影響如何解析起始元字符(^)和結束元字符($)。
在默認情況^和$只匹配整個字符串的開頭,即使字符串包含多行文本。如果啟用了m,那么它們就可以匹配每行文本的開頭和結尾。
2.s會影響如何解析句點元字符(.)。通常一個句點能匹配除了換行符以外的所有字符。但在單行模式下,句點也能匹配一個換行符。