日常工作中,总会遇到正则的时候,索性就把它 搞清楚。后来才发现正则很好用,完全可以替代split和repleace的那种需要循环遍历时的无赖。
简单表达式
最简单的正则表达式大家都已熟悉,即文字字符串。特定的字符串可通过文字本身加以描述;像 foo 这样的正则表达式模式可精确匹配输入的字符串 foo。在本例中,也将匹配如下输入:The foo d was quite tasty,如果希望精确匹配,这可能不是预期结果。
当然,使用正则表达式匹配等于它自身的精确字符串是没有价值的实现,不能体现正则表达式的真正作用。假如不查找 foo,而是查找以字母 f 开头的所有单词,或所有 3 个字母的单词,那该怎么办?目前,这超出了文字字符串的合理范围。我们需要更加深入地研究正则表达式。下面是一个文字表达式示例及一些匹配的输入。
模式 |
输入(匹配) |
---|---|
foo |
foo、food、foot、“There's evil afoot.” |
限定符
限定符提供了一种简单方法,用于指定在模式中允许特定字符或字符集自身重复出现的次数。有 3 个非显式限定符:
-
*,描述“出现 0 或多次”。
-
+,描述“出现 1 或多次”。
-
?,描述“出现 0 或 1 次”。
限定符始终引用限定符前(左边)的模式,通常是单个字符,除非使用括号创建模式组。下面是一些模式示例及匹配的输入。
模式 |
输入(匹配) |
---|---|
fo* |
foo、foe、food、fooot、“forget it”、funny、 puffy |
fo+ |
foo、foe、food、foot、“forget it” |
fo? |
foo、foe、food、foot、“forget it”、funny、puffy |
除了指定给定模式准确出现 0 或 1 次之外,? 字符还可强制模式或子模式匹配数目最少的字符(如果匹配输入字符串中的多个字符)。
除了非显式限定符(一般叫做限定符,但为区别于下一组,故称非显式限定符)之外,还有显式限定符。在模式出现次数方面,限定符的概念非常模糊。使用 显式限定符则可准确指定数字、范围或数字集。显式限定符位于所应用的模式的后边,这一点与正则限定符一样。显式限定符使用花括号 {} 及其中的数字值表示模式出现次数的上下限【下图,第一项,代表至少有两个字母aa,第三项代表至少有二个bb,之多3个】。例如,x{5} 将准确匹配 5 个 x 字符 (xxxxx)。如果仅指定一个数字,则表示次数上限;如果数字后跟一个逗号,如 x{5,},表示匹配任何出现次数大于 4 的 x 字符。下面是一些模式示例及匹配的输入。
模式 |
输入(匹配) |
---|---|
ab{2}c |
abbc、aaabbccc |
ab{,2}c |
ac、abc、abbc、aabbcc |
ab{2,3}c |
abbc、abbbc、aabbcc、aabbbcc |
第二个a{,2}验证未通过,应该改为ab{0,2}c
模式 |
输入(匹配) |
---|---|
fo* |
foo、foe、food、fooot、“forget it”、funny、 puffy |
fo+ |
foo、foe、food、foot、“forget it” |
fo? |
foo、foe、food、foot、“forget it”、funny、puffy |
正则表达式选项RegexOptions有如下一下选项,详细说明请参考联机帮助
RegexOptions枚举值 |
内联标志 |
简单说明 |
ExplicitCapture |
n |
只有定义了命名或编号的组才捕获 |
IgnoreCase |
i |
不区分大小写 |
IgnorePatternWhitespace |
x |
消除模式中的非转义空白并启用由 # 标记的注释。 |
MultiLine |
m |
多行模式,其原理是修改了^和$的含义 |
SingleLine |
s |
单行模式,和MultiLine相对应 |
这里我提到内联标志,是因为相对于用RegexOptions在new Regex时定义Regex表达式的全局选项来说,内联标志可以更小粒度(以组为单位)的定义匹配选项,从而更方便表达我们的思想
语法是这样的:(?i:expression)为定义一个选项,(?-i:expression)为删除一个选项,(?i-s:expression)则定义i,删除s,是的,我们可以一次定义很多个选项。这样,通过内联选项,你就可以在一个Regex中定义一个组为匹分大小写的,一个组不匹分大小写的。
元字符
在正则表达式中,有一种意义特殊的构造,即元字符。目前已知的元字符有很多,如 *、?、+ 和 {} 字符。其他字符在正则表达式语言中都有特殊的含义。这些字符包括:$ ^ . [ ( | ) ] 和 /。
.(句点或点)元字符是最简单但最常用的一个字符。它可匹配任何单字符。如果要指定某些模式可包含任意组合的字 符,使用句点非常有用,但一定要在特定长度范围内。此外,我们知道表达式将对包含在较长字符串中的所有模式进行匹配,假如只需要精确匹配模式,又该怎么 办?这在验证方案中经常出现,例如,要确保用户输入的邮政编码或电话号码的格式正确。使用 ^ 元字符可指定字符串(或行)的开始,使用 $ 元字符可指定字符串(或行)的结束。通过将这些字符添加到模式的开始和结束处,可强制模式仅匹配精确匹配的输入字符串。如果 ^ 元字符用在方括号 [ ] 指定的字符类的开头,也有特殊的含义。具体内容见下。
/ (反斜杠)元字符既可根据特殊含义“转义”字符,也可指定预定义集合元字符的实例。同样,具体内容见下。为了在正则表达式中包括文字样式的元字符,必须使用反斜杠进行“转义”。例如,如果要匹配以“c:/”开始的字符串,可使用:^c://。注意,要使用 ^ 元字符指出字符串必须以此模式作为开始,然后用反斜杠元字符转义文字反斜杠。
|(管道)元字符用于交替指定,特别用于在模式中指定“此或彼”。例如,a|b 将匹配包含“a”或“b”的任何输入内容,这与字符类 [ab] 非常类似。
最后,括号 ( ) 用于给模式分组【如下图,可通过match.groups获取各个组的值】。它允许使用限定符让一个完整模式出现多次。为了便于阅读,或分开匹配特定的输入部分,可能允许分析
或重新设置格式。
下面列出元字符的一些使用示例。
模式 |
输入(匹配) |
---|---|
. |
a、b、c、1、2、3 |
.* |
Abc, 123, 任意字符串, 无字符时也匹配 |
^c:// |
c:/windows、c://///、c:/foo.txt、c:/ 后跟任何其他内容 |
abc$ |
abc、123abc、以 abc 结束的任意字符串 |
(abc){2,3} |
abcabc、abcabcabc |
字符类
字符类是正则表达式中的“迷你”语言,在方括号 [ ] 中定义。最简单的字符类只不过是括号中的一个字符表,如 [aeiou]。在表达式中使用字符类时,可在模式的此位置使用其中任何一个字符(但只能使用一个字符,除非使用了限定符)。请注意,不能使用字符类定义单词或模式,只能定义单个字符。
要指定任何数值数字,可以使用字符类 [0123456789]。但是,由于这样使用字符不大方便,所以要通过在括号中使用连字符 - 来定义字符的范围。连字符在字符类中有特殊的含义(不是在正则表达式中,因此,准确地说它不能叫正则表达式元字符),且仅在连字符不是第一个字符时,连字符才在字符类中有特殊含义。要使用连字符指定任何数值数字,可以使用 [0-9]。小写字母也一样,可以使用 [a-z],大写字母可以使用 [A-Z]。连字符定义的范围取决于使用的字符集。因此,字符在(例如)ASCII 或 Unicode 表中出现的顺序确定了在范围中包括的字符。如果需要在范围中包括连字符,将它指定为第一个字符。例如:[-.?] 将匹配 4 个字符中任何一个字符(注意,最后的字符是个空格)。另请注意,正则表达式元字符在字符类中不做特殊处理,所以这些元字符不需要转义。考虑到字符类是与其他正则表达式语言分开的一种语言,因此字符类有自己的规则和语法。
如果使用字符 ^ 作为字符类[]的第一个字符来否定此类,也可以匹配字符类成员以外的任何字符。因此,要匹配任何非元音字符,可以使用字符类 [^aAeEiIoOuU]。注意,如果要否定连字符,应将连字符作为字符类的第二个字符,如 [^-]。记住,^ 在字符类中的作用与它在正则表达式模式中的作用完全不同。
下面列出操作中使用的一些字符类。
模式 |
输入(匹配) |
---|---|
^b[aeiou]t$ |
Bat、bet、bit、bot、but |
^[0-9]{5}$ |
11111, 12345, 99999 |
^c:// |
c:/windows、c://///、c:/foo.txt、c:/ 后跟任何其他内容 |
abc$ |
abc、123abc、以 abc 结束的任意字符串 |
(abc){2,3} |
abcabc、abcabcabc |
^[^-][0-9]$ |
0、1、2、... (不匹配 -0、-1、 -2 等) |
在 .NET Framework 的下一版中,代码名“Whidbey”作为一种新功能被添加到字符类中,称作字符类差 (character class subtraction)。它的主要作用是,允许从一个字符类中减去另一个字符类,可提供更可读的方式描述某些模式。该规范可通过以下地址访问:http://www.gotdotnet.com/team/clr/bcl/TechArticles/techarticles/Specs/Regex/CharacterClassSubtraction.doc。它的语法类似 [a-z-[aeiou]],匹配所有的小写辅音字母。
预定义的集合元字符
使用目前提供的工具可以完成很多工作。但是,要使用 [0-9] 表示模式中的每个数值数字,或(更糟)使用 [0 -9a -zA-Z]表示任何字母数字字符,还有一段相当漫长的过程。为了减轻处理这些常用但冗长模式的痛苦,事先定义了预定义元字符集合。正则表达式的不同实现定义了不同的预定义元字符集合,下面描述的预定义元字符集合在 .NET Framework 中得到 System.Text.RegularExpressions API 的支持。这些预定义元字符的标准语法是,在反斜杠 / 后跟一个或多个字符。多数预定义元字符只有一个字符,它们的使用很容易,是冗长字符类的理想替代字符。以下是两个示例:/d 匹配所有数值数字,/w 匹配所有单词字符(字母数字加下划线)。例外情况是一些特定字符代码匹配,此时必须指定所匹配字符的地址,如 /u000D 将匹配 Unicode 回车符。下面列出一些最常用的字符类及其等效的元字符。
元字符 |
等效字符类 |
---|---|
/a |
匹配铃声(警报);/u0007 |
/b |
匹配字符类外的字边界,它匹配退格字符,/u0008 |
/t |
匹配制表符,/u0009 |
/r |
匹配回车符,/u000D |
/w |
匹配垂直制表符,/u000B |
/f |
匹配换页符,/u000C |
/n |
匹配新行,/u000A |
/e |
匹配转义符,/u001B |
/040 |
匹配 3 位 8 进制 ASCII 字符。/040 表示空格(十进制数 32)。 |
/x20 |
使用 2 位 16 进制数匹配 ASCII 字符。此例中,/x2- 表示空格。 |
/cC |
匹配 ASCII 控制字符,此例中是 ctrl-C。 |
/u0020 |
使用 4 位 16 进制数匹配 Unicode 字符。此例中 /u0020 是空格。 |
/* |
不代表预定义字符类的任意字符都只作为该字符本身对待。因此,/* 等同于 /x 2A(是文字 *,不是 * 元字符)。 |
/p{name} |
匹配已命名字符类“name”中的任意字符。支持名称是 Unicode 组和块范围。例如,Ll、Nd、Z、IsGreek、IsBoxDrawing 和 Sc(货币)。 |
/p{name} |
匹配已命名字符类“name”中不包括的文本。 |
/w |
匹配任意单词字符。对于非 Unicode 和 ECMAScript 实现,这等同于 [a-zA-Z_0-9]。在 Unicode 类别中,这等同于 [/p{Ll}/p{Lu}/p{Lt}/p{Lo}/p{Nd}/p{Pc}]。 |
/W |
/w 的否定,等效于 ECMAScript 兼容集合 [^a-zA-Z_0-9] 或 Unicode 字符类别 [^/p{Ll}/p{Lu}/p{Lt}/p{Lo}/p{Nd}/p{Pc}]。 |
/s |
匹配任意空白区域字符。等效于 Unicode 字符类 [/f/n/r/t/v/x85/p{Z}]。如果使用 ECMAScript 选项指定 ECMAScript 兼容方式,/s 等效于 [ /f/n/r/t/v] (请注意前导空格)。 |
/S |
匹配任意非空白区域字符。等效于 Unicode 字符类别 [^/f/n/r/t/v/x85/p{Z}]。如果使用 ECMAScript 选项指定 ECMAScript 兼容方式,/S 等效于 [^ /f/n/r/t/v] (请注意 ^ 后的空格)。 |
/d |
匹配任意十进制数字。在 ECMAScript 方式下,等效于 Unicode 的 [/p{Nd}]、非 Unicode 的 [0-9]。 |
/D |
匹配任意非十进制数字。在 ECMAScript 方式下,等效于 Unicode 的 [/p{Nd}]、非 Unicode 的 [^0-9]。 |
表达式示例
很多人都喜欢通过示例学习,下面即提供一些表达式示例。要获取更多示例,请访问以下地址中的正则表达式联机数据库:http://www.regexlib.com/。
模式 |
说明 |
---|---|
^/d{5}$ |
5 个数值数字,如美国邮政编码。 |
^(/d{5})|(/d{5})-/d{4}$ |
5 个数值数字或 5 个数字-短划线-4 个数字。匹配 5 位数字格式的美国邮政编码,或 5 位数字 + 4 位数字格式的美国邮政编码。 |
^(/d{5}(-/d{4})?$ |
与前一个相同,但更有效。使用 ? 可使模式中的 4 位数字成为可选部分,而不是要求分别比较不同的两个模式(通过另一种方式)。 |
^[+-]?/d+(/./d+)?$ |
匹配任意有可选符号的实数。 |
^[+-]?/d*/.?/d*$ |
与上一个相同,但也匹配空字符串。 |
^(20|21|22|23|[01]/d)[0-5]/d$ |
匹配 24 小时制时间值。 |
//*.*/*/ |
匹配 C 语言风格的注释 /* ... */ |
ASP.NET 中的验证
ASP.NET 提供了一套验证控件,与使用旧的(或愿意的话使用传统的) ASP 处理任务相比,验证控件使在 Web 窗体上验证输入变得非常容易。其中一个非常有效的验证器是 RegularExpressionValidator,如您所料,它允许您提供必须匹配输入的正则表达式来验证输入。设置控件的 ValidationExpression 属性可指定正则表达式的模式。下面显示了验证邮政代码字段的验证程序:
<asp:RegularExpressionValidator runat="server" id="ZipCodeValidator" ControlToValidate="ZipCodeTextBox" ErrorMessage="Invalid ZIP code format; format should be either 12345 or 12345-6789." ValidationExpression="(/d{5}(-/d{4})?" />
使用 RegularExpressionValidator 要注意几个问题:
-
决不要使用验证程序要验证的控件中的空字符串来激活验证器。只有 RequiredFieldValidator 才可以捕获空字符串。
-
您无需指定匹配字符的开始与结尾(^ 和$)- 它们是事先假设的。如果添加了开始与结尾,也没有任何影响,不需要这样做。
-
对于所有验证控件来说,必须在客户端以及服务器端进行验证。如果正则表达式不是 ECMAScript 兼容方式,客户端验证将失败。为了避免这种情况,确保表达式是 ECMAScript 兼容方式,否则只在服务器端进行控件验证。
正则表达式 API
除了 ASP.NET 验证控件,在.NET 中使用正则表达式的大多数情况都要使用 System.Text.RegularExpressions 命名空间中发现的类。特别是那些您希望熟悉的主类 Regex、Match 和 MatchCollection。
顺便说一下,正则表达式缩写样式 regex 的发音究竟是 /reg-eks/ 还是 /rej-eks/,还有一些争议。本人倾向于后者,但两种发音都有专家赞同,所以选择哪个发音由您自己决定。
Regex 类有大量的方法和属性,如果您以前没有用过它,可能会感到无所适从。下面汇总了一些最常用的方法:
方法 |
说明 |
---|---|
Escape / Unescape |
字符串中的转义元字符,用作表达式中的文字。 |
IsMatch |
如果正则表达式在输入字符串中发现匹配,返回“Ture”。 |
Match |
如果在输入字符串中发现匹配,则返回匹配对象。 |
Matches |
如果在输入字符串中发现包含任何或全部匹配,则返回匹配集合对象。 |
Replace |
用给定的替换字符串替换输入字符串中的匹配。 |
Split |
将输入字符串拆分成用正则表达式匹配分开的数组元素时,返回数组字符串。 |
除了指定很多方法外,还有一些选项可以指定,通常在 Regex 对象构造函数中。由于这些选项是位屏蔽的一部分,或许可以同时指定这些选项(如,可以同时指定 Multiline 和 Singleline)。
方法 |
说明 |
---|---|
Compiled |
当在循环中执行许多匹配操作时使用此选项。这可以节省每一循环的分析表达式步骤。 |
Multiline |
它与输入字符串中的行数没有关系。确切地说,它只修改 ^ 和 $ 的方式,以便匹配行开始 (BOL) 和行结尾 (EOL),而不是匹配整个输入字符串的开始和结尾。 |
IgnoreCase |
使模式在匹配搜索字符串时忽略大小写。 |
IgnorePatternWhitespace |
允许根据需要在模式中包括任意数量的空白区域,也支持使用 (?# 注释 #) 语法在模式中加入注释。 |
SingleLine |
它与输入字符串中的行数没有关系。更确切地说,它将导致 .(句点)元字符匹配任意字符,而不是除 /n 之外的任意字符(默认情况)。 |
使用正则表达式常执行的操作包括:验证、匹配和替换。大多数情况下,可以使用 Regex 类的静态方法完成这些操作,不需要实例化 Regex 类本身。要执行验证,全部要做的就是必建或找到正确的表达式,然后使用 Regex 类的 IsMatch() 方法将表达式应用到输入字符串中。例如,下面的函数演示了如何使用正则表达式验证邮政编码:
private void ValidateZipButton_Click(object sender, System.EventArgs e) { String ZipRegex = @"^/d{5}$"; if(Regex.IsMatch(ZipTextBox.Text, ZipRegex)) { ResultLabel.Text = "ZIP is valid!"; } else { ResultLabel.Text = "ZIP is invalid!"; } }
类似的,可以使用静态 Replace() 方法将匹配替换为特定字符串,如下所示:
String newText = Regex.Replace(inputString, pattern, replacementText);
最后,可以使用如下代码遍历输入字符串的匹配集合:
private void MatchButton_Click(object sender, System.EventArgs e) { MatchCollection matches = Regex.Matches(SearchStringTextBox.Text, MatchExpressionTextBox.Text); MatchCountLabel.Text = matches.Count.ToString(); MatchesLabel.Text = ""; foreach(Match match in matches) { MatchesLabel.Text += "Found" + match.ToString() + " at position " + match.Index + ".<br>"; } }
通常,在您需要指定默认方式以外的方式时,需要实例化 Regex 类的实例。特别是在设置选项时。例如,要创建忽略大小写和模式空白区域的 Regex 实例,然后检索与该表达式匹配的集合,则应使用如下代码:
Regex re = new Regex(pattern, RegexOptions.IgnoreCase | RegexOptions.IgnorePatternWhitespace); MatchCollection mc = re.Matches(inputString);
下面是简单实例,更直观的了解groups。
1 using System; 2 using System.Text.RegularExpressions; 3 4 public class Example 5 { 6 public static void Main() 7 { 8 string pattern = @"(/d{3})-(/d{3}-/d{4})"; 9 string input = "212-555-6666 906-932-1111 415-222-3333 425-888-9999"; 10 MatchCollection matches = Regex.Matches(input, pattern); 11 12 foreach (Match match in matches) 13 { 14 Console.WriteLine("Area Code: {0}", match.Groups[1].Value); 15 Console.WriteLine("Telephone number: {0}", match.Groups[2].Value); 16 Console.WriteLine(); 17 } 18 Console.WriteLine(); 19 } 20 } 21 // The example displays the following output: 22 // Area Code: 212 23 // Telephone number: 555-6666 24 // 25 // Area Code: 906 26 // Telephone number: 932-1111 27 // 28 // Area Code: 415 29 // Telephone number: 222-3333 30 // 31 // Area Code: 425 32 // Telephone number: 888-9999