由於正則表達式的內容比較多,所以單獨寫成一系列文章,主要內容是根據小甲魚所講的內容綜合一下正則表達式的筆記。
貼上小甲魚的《Python3 如何優雅地使用正則表達式》系列可觀看的博客地址:http://www.cnblogs.com/LoveFishC/tag/Python3/
正則表達式(Regular expressions 也稱為 REs,或 regexes 或 regex patterns)本質上是一個微小的且高度專業化的編程語言。它被嵌入到 Python 中,並通過 re 模塊提供給程序猿使用。使用正則表達式,你需要指定一些規則來描述那些你希望匹配的字符串集合。這些字符串集合可能包含英語句子、 e-mail 地址、TeX 命令,或任何你想要的東東。
正則表達式模式被編譯成一系列的字節碼,然后由一個 C 語言寫的匹配引擎所執行。對於高級的使用,你可能需要更關注匹配引擎是如何執行給定的 RE,並通過一定的方式來編寫 RE,以便產生一個可以運行得更快的字節碼。本文暫不講解優化的細節,因為這需要你對匹配引擎的內部機制有一個很好的理解。但本文的例子均是符合標准的正則表達式語法。
正則表達式語言相對較小,並且受到限制,所以不是所有可能的字符串處理任務都可以使用正則表達式來完成。還有一些特殊的任務,可以使用正則表達式來完成,但是表達式會因此而變得非常復雜。在這種情況下,你可能通過自己編寫 Python 代碼來處理會更好些;盡管 Python 代碼比一個精巧的正則表達式執行起來會慢一些,但可能會更容易理解。
我們將從最簡單的正則表達式學習開始。由於正則表達式常用於操作字符串的,因此我們從最常見的任務下手:字符匹配。
大多數字母和字符會匹配它們自身。舉個例子,正則表達式 FishC 將完全匹配字符串 "FishC"。(你可以啟用不區分大小寫模式,這將使得 FishC 可以匹配 "FISHC" 或 "fishc",我們會在后邊討論這個話題。)
當然這個規則也有例外。有少數特殊的字符我們稱之為元字符(metacharacter),它們並不能匹配自身,它們定義了字符類、子組匹配和模式重復次數等:
. ^ $ * + ? { } [ ] \ | ( )
在《Python3 如何優雅地使用正則表達式(詳解一)》中主要是介紹了以上幾種元字符的用法和舉例,如有需要可以看看。下面貼上Python3 正則表達式特殊符號及用法(詳細列表)
正則表達式的強大之處在於特殊符號的應用,特殊符號定義了字符集合、子組匹配、模式重復次數。正是這些特殊符號使得一個正則表達式可以匹配字符串集合而不只是一個字符串。
注1:為了便於理解,難點的地方均用斜體舉了栗子。
一些元字符的實例可參考:《Python3 如何優雅地使用正則表達式(詳解四)》
字符 |
含義 |
. |
表示匹配除了換行符外的任何字符 |
| |
A | B,表示匹配正則表達式 A 或者 B |
^ |
1. (脫字符)匹配輸入字符串的開始位置 |
$ |
1. 匹配輸入字符串的結束位置 |
\ |
1. 將一個普通字符變成特殊字符,例如 \d 表示匹配所有十進制數字 |
[...] |
字符類,匹配所包含的任意一個字符 |
{M,N} |
M 和 N 均為非負整數,其中 M <= N,表示前邊的 RE 匹配 M ~ N 次 |
* |
匹配前面的子表達式零次或多次,等價於 {0,} |
+ |
匹配前面的子表達式一次或多次,等價於 {1,} |
? |
匹配前面的子表達式零次或一次,等價於 {0,1} |
*?, +?, ?? |
默認情況下 *、+ 和 ? 的匹配模式是貪婪模式(即會盡可能多地匹配符合規則的字符串);*?、+? 和 ?? 表示啟用對應的非貪婪模式。 |
{M,N}? |
同上,啟用非貪婪模式,即只匹配 M 次 |
(...) |
匹配圓括號中的正則表達式,或者指定一個子組的開始和結束位置 |
(?...) |
(? 開頭的表示為正則表達式的擴展語法(下邊這些是 Python 支持的所有擴展語法) |
(?aiLmsux) |
1. (? 后可以緊跟着 'a','i','L','m','s','u','x' 中的一個或多個字符,只能在正則表達式的開頭使用 |
(?:...) |
非捕獲組,即該子組匹配的字符串無法從后邊獲取 |
(?P<name>...) |
命名組,通過組的名字(name)即可訪問到子組匹配的字符串 |
(?P=name) |
反向引用一個命名組,它匹配指定命名組匹配的任何內容 |
(?#...) |
注釋,括號中的內容將被忽略 |
(?=...) |
前向肯定斷言。如果當前包含的正則表達式(這里以 ... 表示)在當前位置成功匹配,則代表成功,否則失敗。一旦該部分正則表達式被匹配引擎嘗試過,就不會繼續進行匹配了;剩下的模式在此斷言開始的地方繼續嘗試。 |
(?!...) |
前向否定斷言。這跟前向肯定斷言相反(不匹配則表示成功,匹配表示失敗)。 |
(?<=...) |
后向肯定斷言。跟前向肯定斷言一樣,只是方向相反。 |
(?<!...) |
后向否定斷言。跟前向肯定斷言一樣,只是方向相反。 |
(?(id/name)yes-pattern|no-pattern) |
1. 如果子組的序號或名字存在的話,則嘗試 yes-pattern 匹配模式;否則嘗試 no-pattern 匹配模式 |
\ |
下邊列舉了由字符 '\' 和另一個字符組成的特殊含義。注意,'\' + 元字符的組合可以解除元字符的特殊功能 |
\序號 |
1. 引用序號對應的子組所匹配的字符串,子組的序號從 1 開始計算 |
\A |
匹配輸入字符串的開始位置 |
\Z |
匹配輸入字符串的結束位置 |
\b |
零寬斷言,匹配一個單詞邊界,單詞被定義為 Unidcode 的字母數字或下橫線字符 |
\B |
零寬斷言,匹配非單詞邊界,其實就是與 \b 相反 |
\d |
1. 對於 Unicode(str 類型)模式:匹配任何一個數字,包括 [0-9] 和其他數字字符;如果開啟了 re.ASCII 標志,就只匹配 [0-9] |
\D |
匹配任何非 Unicode 的數字,其實就是與 \d 相反;如果開啟了 re.ASCII 標志,則相當於匹配 [^0-9] |
\s |
1. 對於 Unicode(str 類型)模式:匹配 Unicode 中的空白字符(包括 [ \t\n\r\f\v] 以及其他空白字符);如果開啟了 re.ASCII 標志,就只匹配 [ \t\n\r\f\v] |
\S |
匹配任何非 Unicode 中的空白字符,其實就是與 \s 相反;如果開啟了 re.ASCII 標志,則相當於匹配 [^ \t\n\r\f\v] |
\w |
1. 對於 Unicode(str 類型)模式:匹配任何 Unicode 的單詞字符,基本上所有語言的字符都可以匹配,當然也包括數字和下橫線;如果開啟了 re.ASCII 標志,就只匹配 [a-zA-Z0-9_] |
\W |
匹配任何非 Unicode 的單詞字符,其實就是與 \w 相反;如果開啟了 re.ASCII 標志,則相當於 [^a-zA-Z0-9_] |
轉義符號 |
正則表達式還支持大部分 Python 字符串的轉義符號:\a,\b,\f,\n,\r,\t,\u,\U,\v,\x,\\ |
下述為小甲魚上課的一些實例:
>>> import re >>> re.search(r'FishC','I love FishC.com') #search()方法用於在字符串中搜索正則表達式第一次出現的位置 <_sre.SRE_Match object; span=(7, 12), match='FishC'> >>> re.search(r'.','I love FishC.com') #.可以指代任意內容 <_sre.SRE_Match object; span=(0, 1), match='I'> >>> re.search(r'Fish.','I love FishC.com') <_sre.SRE_Match object; span=(7, 12), match='FishC'> >>> re.search(r'\.','I love FishC.com') #通過轉義符\,此時尋找真正的. <_sre.SRE_Match object; span=(12, 13), match='.'>
>>> re.search(r'\d','I love 123 FishC.com')#匹配數字 <_sre.SRE_Match object; span=(7, 8), match='1'> >>> re.search(r'\d\d\d','I love 123 FishC.com') <_sre.SRE_Match object; span=(7, 10), match='123'> >>> #則我們可以通過這種方式來匹配IP地址 >>> re.search(r'\d\d\d\.\d\d\d\.\d\d\d\.\d\d\d','192.168.111.123') <_sre.SRE_Match object; span=(0, 15), match='192.168.111.123'> >>> #但是IP地址的范圍應該在0-255之間,而且不一定都是三位數 >>> re.search(r'\d\d\d\.\d\d\d\.\d\d\d\.\d\d\d','192.168.1.1') >>> #未匹配成功 >>> #接着我們討論范圍的問題 >>> re.search(r'[aeiou]','I love FishC.com') <_sre.SRE_Match object; span=(3, 4), match='o'> >>> #匹配的是小寫字母o,區分大小寫 >>> re.search(r'[aeiouAEIOU]','I love FishC.com') <_sre.SRE_Match object; span=(0, 1), match='I'> >>> re.search(r'[a-z]','I love FishC.com') <_sre.SRE_Match object; span=(2, 3), match='l'> >>> re.search(r'[0-9]','I love 123 FishC.com') <_sre.SRE_Match object; span=(7, 8), match='1'> >>> #接着討論次數的問題 >>> re.search(r'ab{3}c','abbbc') <_sre.SRE_Match object; span=(0, 5), match='abbbc'> >>> #當b不止3個時,匹配失敗 >>> re.search(r'ab{3}c','abbbbbbc') >>> #給定一個b可能出現次數的范圍 >>> re.search(r'ab{3,10}c','abbbbbbc') >>> re.search(r'ab{3,10}c','abbbbbbc') <_sre.SRE_Match object; span=(0, 8), match='abbbbbbc'> >>> #如何匹配0-255中的數字 >>> re.search(r'[1]\d\d|2[0-4]\d|25[0-5]]','188') <_sre.SRE_Match object; span=(0, 3), match='188'>>>> re.search(r'(([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.){3}([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])','192.168.1.1') <_sre.SRE_Match object; span=(0, 11), match='192.168.1.1'>
注意正則表達式默認的匹配規則是貪婪的,在重復的內容后加上?即表示啟用對應的非貪婪模式。
>>> s = '<html><title>I love FishC.com</title></html>' >>> re.search(r'<.+>',s) <_sre.SRE_Match object; span=(0, 44), match='<html><title>I love FishC.com</title></html>'> >>> re.search(r'<.+?>',s) <_sre.SRE_Match object; span=(0, 6), match='<html>'>