iOS在4.0里也可以用正則表達式了,功能也是相當強大。
曾以為自己已經掌握了正則表達式,這2天才明白正則表達式有多復雜,原來還有專門厚厚的一本書《正則表達式入門經典》。
小程序的目標是匹配PGN棋譜中的着法部分。
規則就是:數字表示第幾回合,后面有個小句點,然后紅方着法,可以跟評注,然后是黑方着法,可以跟評注。評注是放在花括號中的,可以單行,也可以多行。
1. 炮八平五 炮8平5
{ 紅方首着架中炮必走之着,聶棋聖還架中炮拼兌子力,戰術對頭。}
2. 炮五進五 象7進5
3. 炮二平五
{ 再架中炮也屬正着,如改走馬八進七,則象5退7,紅方帥府受攻,
當然若紅方仍再架中炮拼兌,那么失去雙炮就難有作用了。
} 馬8進7
... ...
人工很容易讀的棋譜,但用編程語言描述起來就不太容易了,最后寫出來的正則表達式是一段天書:
\d+\.\s+\w{4}\s*(\{(.|[\r\n])*?\})?\s*\w{4}\s*(\{(.|[\r\n])*?\})?
放在iOS里還要加上轉義符,就成了這樣:
\\d+\\.\\s+\\w{4}\\s*(\\{(.|[\\r\\n])*?\\})?\\s*\\w{4}\\s*(\\{(.|[\\r\\n])*?\\})?
由於程序員還要提取出來回合數,紅方着法,紅方評注,黑方着法,黑方評注等重要信息,所以還要在上面的表達式里加上()這類的分組信息,最后的表達式更復雜了:
@"(\\d+)\\.\\s+(\\w{4})\\s*(\\{(?:.|[\\r\\n])*?\\})?\\s*(?:(\\w{4})\\s*(\\{(?:.|[\\r\\n])*?\\})?)?";
在編程序前,用了一款Windows上的小軟件RegexBuddy把正則表達式測試好許多遍才通過,如果直接上機調試會累個半死。
先把較為簡單的正則表達式的意思折開來理解一下:
\d+\. // 一個整數,后面跟着小圓點
\s+ // 1個以上的分隔符
\w{4} // 4個字符
\s* // 0個以上的分隔符
(\{(.|[\r\n])*?\})? // 一行或多行的放在花括號中{}的注釋,紅方的招法評注
\s* // 0個以上的分隔符
( // 最后一回合時,可以只有紅方的招法
\w{4} // 4個字符
\s* // 0個以上的分隔符
(\{(.|[\r\n])*?\})? // 一行或多行的放在花括號中{}的注釋,黑方的招法評注
)?
這里面涉及到的正則表達式語法:
\d 匹配任何一個數字,即[0-9]
\d+表示1個以上的數字
(\d+) 強行加上小括號,分組,相當把這個值緩沖起來,在代碼里用[myString substringWithRange:[match rangeAtIndex:1]]可以提取出來回合數
\. 表示小句點
\s 表示分隔符,包括空格、制表符和換行符
\s* 0個或多個分隔符
\w 表示字母、數字和下划線,這里還包括Unicode字符,不同的語言里有些不同
\w{4} 表示4個非空白字符
. 表示任何一個字符,不包括換行符
.* 表示任何多個字符,當然也不包括換行符了
(.|[\r\n])* 表示任何多個字符,包括換行符,貪婪掃描
(.|[\r\n])*? 表示任何多個字符,包括換行符,懶惰掃描
(?:.|[\\r\\n]) 以(?:開頭時的分組信息,表示不讀取到緩沖器里,避免rangeAtIndex調用時產生副作用,后面還會遇到這樣的(?:寫法
\{(.|[\r\n])*?\} 一條放在花括號中間的注釋語句,由於包含了換行符,所以支持多行注釋
(\{(.|[\r\n])*?\})? 可以沒有注釋,也可以有1條注釋
在iOS里用NSRegularExpression類來解析正則表達式,主要用法是:
NSString *regTags = @"\\[(\\w*)\\s*\\\"(.*)\\\"]\\s*\\n"; // 設計好的正則表達式,最好先在小工具里試驗好
NSRegularExpression *regex = [NSRegularExpressionregularExpressionWithPattern:regTags
options:NSRegularExpressionCaseInsensitive // 還可以加一些選項,例如:不區分大小寫
error:&error];
// 執行匹配的過程
NSArray *matches = [regex matchesInString:pgnText
options:0
range:NSMakeRange(0, [pgnText length])];
// 用下面的辦法來遍歷每一條匹配記錄
for (NSTextCheckingResult *match in matches) {
NSRange matchRange = [match range];
NSString *tagString = [pgnText substringWithRange:matchRange]; // 整個匹配串
NSRange r1 = [match rangeAtIndex:1];
if (!NSEqualRanges(r1, NSMakeRange(NSNotFound, 0))) { // 由時分組1可能沒有找到相應的匹配,用這種辦法來判斷
NSString *tagName = [pgnText substringWithRange:r1]; // 分組1所對應的串}
NSString *tagValue = [pgnText substringWithRange:[match rangeAtIndex:2]]; // 分組2所對應的串
}
C#中的用法:
Regex reg = new Regex(@"\d+\.\s+(\w{4})\s*(?:\{(?:.|[\r\n])*?\})?\s*(\w{4})\s*(?:\{(?:.|[\r\n])*?\})?");
MatchCollection collection = reg.Matches(pgnText);
GroupCollection groupCollection;foreach (Match match in collection)
{
//Console.WriteLine(match.ToString());
groupCollection = match.Groups;
string redMove = groupCollection[1].Value;
if (!redMove.Equals(""))
chMoves.Add(redMove);
string blackMove = groupCollection[2].Value;
if (!blackMove.Equals(""))
chMoves.Add(blackMove);
}
另外可參考的帖子:
在下面這個頁面里介紹了正則表達式的貪婪和懶惰的問題以及一些高級用法
http://blog.benhuoer.com/posts/crucial-concepts-behind-advanced-regular-expressions.html
如何用正則表達式匹配C語言里的/* ... */ 這樣的注釋
http://ostermiller.org/findcomment.html
在VeryCD上有幾本不錯的正則表達式的書,先磨磨刀再寫程序也不遲