python 正則表達式詳解
1. 正則表達式模式
模式 | 描述 |
---|---|
^ | 匹配字符串的開頭 |
$ | 匹配字符串的末尾。 |
. | 匹配任意字符,除了換行符,當re.DOTALL標記被指定時,則可以匹配包括換行符的任意字符。 |
[...] | 用來表示一組字符,單獨列出:[amk] 匹配 'a','m'或'k' |
[^...] | 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。 |
re* | 匹配0個或多個的表達式。 |
re+ | 匹配1個或多個的表達式。 |
re? | 匹配0個或1個由前面的正則表達式定義的片段,非貪婪方式 |
re{ n} | 匹配n個前面表達式。例如,"o{2}"不能匹配"Bob"中的"o",但是能匹配"food"中的兩個o。 |
re{ n,} | 精確匹配n個前面表達式。例如,"o{2,}"不能匹配"Bob"中的"o",但能匹配"foooood"中的所有o。"o{1,}"等價於"o+"。"o{0,}"則等價於"o*"。 |
re{ n, m} | 匹配 n 到 m 次由前面的正則表達式定義的片段,貪婪方式 |
a| b | 匹配a或b |
(re) | 匹配括號內的表達式,也表示一個組 |
(?imx) | 正則表達式包含三種可選標志:i, m, 或 x 。只影響括號中的區域。 |
(?-imx) | 正則表達式關閉 i, m, 或 x 可選標志。只影響括號中的區域。 |
(?: re) | 類似 (...), 但是不表示一個組 |
(?imx: re) | 在括號中使用i, m, 或 x 可選標志 |
(?-imx: re) | 在括號中不使用i, m, 或 x 可選標志 |
(?#...) | 注釋. |
(?= re) | 前向肯定界定符。如果所含正則表達式,以 ... 表示,在當前位置成功匹配時成功,否則失敗。但一旦所含表達式已經嘗試,匹配引擎根本沒有提高;模式的剩余部分還要嘗試界定符的右邊。 |
(?! re) | 前向否定界定符。與肯定界定符相反;當所含表達式不能在字符串當前位置匹配時成功。 |
(?> re) | 匹配的獨立模式,省去回溯。 |
\w | 匹配數字字母下划線 |
\W | 匹配非數字字母下划線 |
\s | 匹配任意空白字符,等價於 [\t\n\r\f]。 |
\S | 匹配任意非空字符 |
\d | 匹配任意數字,等價於 [0-9]。 |
\D | 匹配任意非數字 |
\A | 匹配字符串開始 |
\Z | 匹配字符串結束,如果是存在換行,只匹配到換行前的結束字符串。 |
\z | 匹配字符串結束 |
\G | 匹配最后匹配完成的位置。 |
\b | 匹配一個單詞邊界,也就是指單詞和空格間的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 |
\B | 匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。 |
\n, \t, 等。 | 匹配一個換行符。匹配一個制表符, 等 |
\1...\9 | 匹配第n個分組的內容。 |
\10 | 匹配第n個分組的內容,如果它經匹配。否則指的是八進制字符碼的表達式。 |
2. 正則表達式修飾符 - 可選標志
修飾符 | 描述 |
---|---|
re.I | 使匹配對大小寫不敏感 |
re.L | 做本地化識別(locale-aware)匹配 |
re.M | 多行匹配,影響 ^ 和 $ |
re.S | 使 . 匹配包括換行在內的所有字符 |
re.U | 根據Unicode字符集解析字符。這個標志影響 \w, \W, \b, \B. |
re.X | 該標志通過給予你更靈活的格式以便你將正則表達式寫得更易於理解。 |
3. 字符串的常用操作:一對一匹配
s1 = '菜鳥程序員_Python'
print(s1.find('程序員'))
4. re.findall() 函數
(1): \w 匹配中文,字母,數字,下划線
import re
name = "菜鳥程序員-re.findall() 詳解" print(re.findall("\w",name)) # ['菜', '鳥', '程', '序', '員', 'r', 'e', 'f', 'i', 'n', 'd', 'a', 'l', 'l', '詳', '解']
(2): \W 不匹配中文,字母,數字,下划線
import re
name = "菜鳥程序員-re.findall() 詳解" print(re.findall("\W",name)) # ['-', '.', '(', ')', ' ']
(3): \s 匹配任意的空白符
import re
name = "菜鳥程序員-re.findall() 詳解" print(re.findall("\s",name)) # [' ']
(4): \S 匹配不是任意的空白符
import re
name = "菜鳥程序員-re.findall() 詳解" print(re.findall("\S",name)) # ['菜', '鳥', '程', '序', '員', '-', 'r', 'e', '.', 'f', 'i', 'n', 'd', 'a', 'l', 'l', '(', ')', '詳', '解']
(5): \d 匹配數字
import re
name = "菜鳥程序員-re.findall() 詳解 2020/03/09" print(re.findall("\d",name)) # ['2', '0', '2', '0', '0', '3', '0', '9']
(6): \D 匹配非數字
import re
name = "菜鳥程序員-re.findall() 詳解 2020/03/09" print(re.findall("\D",name)) # ['菜', '鳥', '程', '序', '員', '-', 'r', 'e', '.', 'f', 'i', 'n', 'd', 'a', 'l', 'l', '(', ')', ' ', '詳', '解', ' ', '/', '/']
(7): \A 與 ^ 從字符串開頭匹配
import re
name = "菜鳥程序員-re.findall() 詳解" print(re.findall("\A菜鳥程序員",name)) print(re.findall("^菜鳥程序員",name)) # ['菜鳥程序員'] # ['菜鳥程序員']
(8): \Z 與 \z 與 $ 字符串結尾匹配
字符串結束位置與則符合就匹配,否則不匹配,返回值是list
import re
name = "菜鳥程序員-re.findall() 詳解" print(re.findall("詳解\Z",name)) print(re.findall("詳解\z",name)) print(re.findall("詳解$",name)) # ['詳解'] # [] # ['詳解']
(9): . 匹配任意字符(換行符除外,re.DOTALL)
import re
name = "菜鳥程序員-re.findall() 詳解 \r\n" print(re.findall(".",name)) print(re.findall(".",name,re.DOTALL)) # ['菜', '鳥', '程', '序', '員', '-', 'r', 'e', '.', 'f', 'i', 'n', 'd', 'a', 'l', 'l', '(', ')', ' ', '詳', '解', ' ', '\r'] # ['菜', '鳥', '程', '序', '員', '-', 'r', 'e', '.', 'f', 'i', 'n', 'd', 'a', 'l', 'l', '(', ')', ' ', '詳', '解', ' ', '\r', '\n']
(10): ? 匹配?前元素0個或1個
問號前面的一個字符可以是0次或1次,返回值是list
import re
name = "菜鳥程序員-re.findall() 詳解 \r\n" print(re.findall("re?",name)) # ['re']
(11): ***** 匹配 * 前面元素0個或多個 [貪婪匹配]
星號前面的一個字符可以是0次或多次,返回值是list
import re
name = "re - python_re - python_re.findall()" print(re.findall("re*",name)) print(re.findall("python_re*",name)) # ['re', 're', 're'] # ['python_re', 'python_re']
(12): + 匹配 +前面元素1個或多個 [貪婪匹配]
加號前面的一個字符可以是1次或多次,返回值是list
import re
name = "re - python_re - python_re.findall()" print(re.findall("re+",name)) print(re.findall("python_re+",name)) # ['re', 're', 're'] # ['python_re', 'python_re']
(13): {n,m} 匹配n到m個元素
匹配前一個字符n-m次,返回值是list
import re
name = "re - python_re - python_re.findall()" print(re.findall("re{1}",name)) print(re.findall("re{1,2}",name)) print(re.findall("python{1,2}",name)) # ['re', 're', 're'] # ['re', 're', 're'] # ['python', 'python']
(14): .* 任意內容0個或多個
import re
name = "re - python_re - python_re.findall()" print(re.findall(".*",name)) # ['re - python_re - python_re.findall()', '']
(15): **.*?** 任意內容0個或1個
import re
name = "re - python_re - python_re.findall()" print(re.findall("python.?re",name)) # .? 表示"一個"任意字符 print(re.findall("py.*?re",name)) # .*? 表示任意個任意內容 # ['python_re', 'python_re'] # ['python_re', 'python_re']
(16): [] 獲取括號中的內容
import re
name = "菜鳥程序員_Python-re.findall() 詳解 2020/03/09" print(re.findall("[0-9]",name)) # 匹配數字0-9 print(re.findall("[a-z]",name)) # [a-z]匹配小寫字母a-z print(re.findall("A-z]",name)) # 是按照ascii碼表位進行匹配的 print(re.findall("[a-zA-Z]",name)) # [a-zA-Z] 匹配字母不管大小寫 print(re.findall("[^A-z]",name)) # [^A-z] 有上尖號就是取反,獲取不是字母和特定的幾個字符 print(re.findall("[-+*]",name)) # 如果想要匹配到-,就需要進行如下操作(將-號放到最前面) # ['2', '0', '2', '0', '0', '3', '0', '9'] # ['y', 't', 'h', 'o', 'n', 'r', 'e', 'f', 'i', 'n', 'd', 'a', 'l', 'l'] # [] # ['P', 'y', 't', 'h', 'o', 'n', 'r', 'e', 'f', 'i', 'n', 'd', 'a', 'l', 'l'] # ['菜', '鳥', '程', '序', '員', '-', '.', '(', ')', ' ', '詳', '解', ' ', '2', '0', '2', '0', '/', '0', '3', '/', '0', '9'] # ['-']
(17): () 分組 定制一個匹配規則
import re
name = "菜鳥程序員_Python-re.findall() 詳解 2020/03/09" print(re.findall("(.*?) 詳解",name)) href = "<a href='https://www.cnblogs.com/xingxingnbsp/p/12420761.html'>菜鳥程序員_Python</a>" print(re.findall("href='(.*?)'",href)) # ['菜鳥程序員_Python-re.findall()'] # ['https://www.cnblogs.com/xingxingnbsp/p/12420761.html']
(18): | 匹配 左邊或者右邊,也可以理解成或
import re
name = "python-re&python-file&python-re.findall()" print(re.findall('python|re|python-re', name)) print(re.findall('&(python|re)',name)) print(re.findall('&(?:python|re)',name)) # ['python', 're', 'python', 'python', 're'] # ['python', 'python'] # ['&python', '&python']
5. re.match() 詳解
re.match 嘗試從字符串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回none。
函數語法:
re.match(pattern, string, flags=0)
參數說明:
pattern : 匹配的正則表達式
string : 要匹配的字符串。
flags : 標志位,用於控制正則表達式的匹配方式,如:是否區分大小寫,多行匹配等等。
匹配成功re.match方法返回一個匹配的對象,否則返回None。
我們可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。group(num=0): 匹配的整個表達式的字符串,
group() 可以一次輸入多個組號,在這種情況下它將返回一個包含那些組所對應值的元組。
groups(): 返回一個包含所有小組字符串的元組,從 1 到 所含的小組號。
(1) 實例一:
import re
href = 'https://www.cnblogs.com/xingxingnbsp/p/12420761.html scrapy 基礎教程' print(re.match('https', href).span()) # 在起始位置匹配 print(re.match('www', href)) # 不在起始位置匹配 # (0, 5) # None
(2) 實例二:
import re
href = 'https://www.cnblogs.com/xingxingnbsp/p/12420761.html scrapy 基礎教程' match_obj = re.match(r'https://(.*)xingxingnbsp(.*?) .*', href, re.M | re.I) if match_obj: print("match_obj.group() : ", match_obj.group()) print("match_obj.group(1) : ", match_obj.group(1)) print("match_obj.group(2) : ", match_obj.group(2)) else: print("No match!!") # match_obj.group() : https://www.cnblogs.com/xingxingnbsp/p/12420761.html scrapy 基礎教程 # match_obj.group(1) : www.cnblogs.com/ # match_obj.group(2) : /p/12420761.html
(3) 練習一:(完成手機號匹配)
import re
# 練習1:完成手機號匹配 # phone_number = input("請輸入手機號:")
phone_number = "18582896123" match_obj = re.match(r'0?(13|14|15|16|17|18|19)[0-9]{9}', phone_number) if match_obj: print(phone_number + ":手機號碼正常") else: print(phone_number + ":手機號碼異常")
(4) 練習二:(完成郵箱的匹配)
import re
# 練習2:完成郵箱的匹配 # mailbox = input("請輸入郵箱號:")
mailbox = "123456789@qq.com" match_obj = re.match(r'\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}', mailbox) if match_obj: print(mailbox + ":郵箱號碼正常") else: print(mailbox + ":郵箱號碼異常")
(5) 練習三:(完成網址的匹配)
import re
# 練習3:完成網址的匹配 # href = input("請輸入URL地址:")
href = "https://www.cnblogs.com/xingxingnbsp/p/12420761.html" match_obj = re.match(r'(http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?', href) if match_obj: print(href + ":URL地址正常") else: print(href + ":URL地址異常")
6. re.search() 詳解
re.search 掃描整個字符串並返回第一個成功的匹配。
函數語法:
re.search(pattern, string, flags=0)
參數說明:
pattern 匹配的正則表達式
string 要匹配的字符串。
flags 標志位,用於控制正則表達式的匹配方式,如:是否區分大小寫,多行匹配等等。
匹配成功re.search方法返回一個匹配的對象,否則返回None。
我們可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。
group(num=0) 匹配的整個表達式的字符串,group() 可以一次輸入多個組號,在這種情況下它將返回一個包含那些組所對應值的元組。
groups() 返回一個包含所有小組字符串的元組,從 1 到 所含的小組號。
(1) 實例一:
import re
href = "https://www.cnblogs.com/xingxingnbsp/p/12420761.html" print(re.search('cnblogs', href).span()) # 不在起始位置匹配 print(re.search('xingxingnbsp', href).span()) # 不在起始位置匹配 # (12, 19) # (24, 36)
(2) 實例二:
import re
href = "https://www.cnblogs.com/xingxingnbsp/p/12420761.html scrapy 基礎教程" search_obj = re.search(r'https://(.*)xingxingnbsp(.*?) .*', href, re.M | re.I) if search_obj: print("search_obj.group() : ", search_obj.group()) print("search_obj.group(1) : ", search_obj.group(1)) print("search_obj.group(2) : ", search_obj.group(2)) else: print("No search!!") # search_obj.group() : https://www.cnblogs.com/xingxingnbsp/p/12420761.html scrapy 基礎教程 # search_obj.group(1) : www.cnblogs.com/ # search_obj.group(2) : /p/12420761.html
(3) 練習一:(完成手機號匹配)
import re # 練習1:完成手機號匹配 # phone_number = input("請輸入手機號:")
phone_number = "18582896123" search_obj = re.search(r'0?(13|14|15|16|17|18|19)[0-9]{9}', phone_number) if search_obj: print(phone_number + ":手機號碼正常") else: print(phone_number + ":手機號碼異常")
(4) 練習二:(完成郵箱的匹配)
import re
# 練習2:完成郵箱的匹配 # mailbox = input("請輸入郵箱號:")
mailbox = "123456789@qq.com" mailbox = "123456789@qq.com" search_obj = re.match(r'\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}', mailbox) if search_obj: print(mailbox + ":郵箱號碼正常") else: print(mailbox + ":郵箱號碼異常")
(5) 練習三:(完成網址的匹配)
import re
# 練習3:完成網址的匹配 # href = input("請輸入URL地址:")
href = "https://www.cnblogs.com/xingxingnbsp/p/12420761.html" search_obj = re.match(r'(http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*[\w\-\@?^=%&/~\+#])?', href) if search_obj: print(href + ":URL地址正常") else: print(href + ":URL地址異常")
7. re.match與re.search的區別
re.match 只匹配字符串的開始,如果字符串開始不符合正則表達式,則匹配失敗,函數返回 None,
而 re.search 匹配整個字符串,直到找到一個匹配。
import re href = "https://www.cnblogs.com/xingxingnbsp/p/12420761.html" match_obj = re.match(r'xingxingnbsp', href, re.M | re.I) if match_obj: print("match_obj.group() : ", match_obj.group()) else: print("No match!!") search_obj = re.search(r'xingxingnbsp', href, re.M | re.I) if search_obj: print("search_obj.group() : ", search_obj.group()) else: print("No match!!")
8. 檢索和替換
(1) sub()函數
Python 的re模塊提供了re.sub用於替換字符串中的匹配項。
語法:
re.sub(pattern, repl, string, count=0, flags=0)
參數:
pattern : 正則中的模式字符串。
repl : 替換的字符串,也可為一個函數。
string : 要被查找替換的原始字符串。
count : 模式匹配后替換的最大次數,默認 0 表示替換所有的匹配。
flags : 編譯時用的匹配模式,數字形式。
前三個為必選參數,后兩個為可選參數。
實例一:
import re r=re.sub("A\w","Python","AbAbcAbcdAbcdeAbcdef") #替換匹配成功的指定位置字符串,並且返回替換次數,可以用兩個變量分別接受
print(r) #返回替換后的字符串
# PythonPythoncPythoncdPythoncdePythoncdef
實例二:
import re phone = "185-8289-1234 # 這是一個電話號碼" num = re.sub(r'#.*$', "", phone) # 將# 這是一個電話號碼替換為''
print("電話號碼 : ", num) num = re.sub(r'\D', "", phone) # 獲取除了數字其他的字符並替換為''
print("電話號碼 : ", num) # 電話號碼 : 185-8289-1234 # 電話號碼 : 18582891234
實例三:
import re string = 'PHP是最好的開發語言,PHP就是一個普通開發語言,PHP牛逼。'
print("替換之前的字符串:" + string) print("替換之后的字符串:" + re.sub('PHP', 'Python', string)) # 替換之前的字符串:PHP是最好的開發語言,PHP就是一個普通開發語言,PHP牛逼。 # 替換之后的字符串:Python是最好的開發語言,Python就是一個普通開發語言,Python牛逼。
實例四:(當repl 為函數時)
import re
def double(matched): value = int(matched.group('value')) return str(value * 2) s = '我的金幣數為2000'
print(re.sub('(?P<value>\d+)', double, s)) # 我的金幣數為4000
(2) subn()函數
替換匹配成功的指定位置字符串,並且返回替換次數,可以用兩個變量分別接受
語法:
re.subn(pattern, repl, string, count=0, flags=0)
參數:
pattern : 正則中的模式字符串。
repl : 替換的字符串,也可為一個函數。
string : 要被查找替換的原始字符串。
count : 模式匹配后替換的最大次數,默認 0 表示替換所有的匹配。
flags : 編譯時用的匹配模式,數字形式。
前三個為必選參數,后兩個為可選參數。
實例一:
import re a,b=re.subn("A\w","Python","AbAbcAbcdAbcdeAbcdef") #替換匹配成功的指定位置字符串,並且返回替換次數,可以用兩個變量分別接受 print(a) #返回替換后的字符串 print(b) #返回替換次數 # PythonPythoncPythoncdPythoncdePythoncdef # 5
(3) compile 函數
compile 函數用於編譯正則表達式,生成一個正則表達式( Pattern )對象,供 match() 和 search() 這兩個函數使用。
語法格式為:
re.compile(pattern[, flags])
參數:
pattern : 一個字符串形式的正則表達式
flags 可選,表示匹配模式,比如忽略大小寫,多行模式等,具體參數為:
re.I 忽略大小寫
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴於當前環境
re.M 多行模式
re.S 即為' . '並且包括換行符在內的任意字符(' . '不包括換行符)
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴於 Unicode 字符屬性數據庫
re.X 為了增加可讀性,忽略空格和' # '后面的注釋
實例一:
import re pattern = re.compile(r'\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}') str = '123456789@qq.com' m = pattern.search(str) print(m.group()) # 123456789@qq.com
實例二:
import re pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I) # re.I 表示忽略大小寫 m = pattern.match('Hello World Wide Web') print(m) # 匹配成功,返回一個 Match 對象 print(m.group(0)) # 返回匹配成功的整個子串 print(m.span(0)) # 返回匹配成功的整個子串的索引 print(m.group(1)) # 返回第一個分組匹配成功的子串 print(m.span(1)) # 返回第一個分組匹配成功的子串的索引 print(m.group(2)) # 返回第二個分組匹配成功的子串 print(m.span(2)) # 返回第二個分組匹配成功的子串索引 print(m.groups()) # 等價於 (m.group(1), m.group(2), ...) print(m.group(3)) # 不存在第三個分組 """ <_sre.SRE_Match object; span=(0, 11), match='Hello World'> Traceback (most recent call last): Hello World (0, 11) Hello (0, 5) World (6, 11) ('Hello', 'World') File "D:/projects/學習項目目錄/python相關/python 常用模塊/python-re/5. 檢索和替換.py", line 130, in <module> print(m.group(3)) # 不存在第三個分組 IndexError: no such group """
(4) split 函數
split 方法按照能夠匹配的子串將字符串分割后返回列表,它的使用形式如下:
re.split(pattern, string[, maxsplit=0, flags=0])
參數:
pattern 匹配的正則表達式
string 要匹配的字符串。
maxsplit 分隔次數,maxsplit=1 分隔一次,默認為 0,不限制次數。
flags 標志位,用於控制正則表達式的匹配方式,如:是否區分大小寫,多行匹配等等。參見:正則表達式修飾符 - 可選標志
實例一:
import re string = "python,python2,python3" re_split = re.split("\W+",string) # 匹配非數字字母下划線 並分割字符串 python_split = string.split(',') # python自帶的分割方法 print(re_split) print(python_split) # ['python', 'python2', 'python3'] # ['python', 'python2', 'python3']
實例二:
import re string = "python,python2,python3" re_split_1 = re.split("(\W+)",string) # 匹配非數字字母下划線 並分割字符串 re_split_2 = re.split('\W+', string, 1) # 匹配非數字字母下划線 只分割一次 re_split_3 = re.split(' ', string, 1) # 對於一個找不到匹配的字符串而言,split 不會對其作出分割 print(re_split_1) print(re_split_2) print(re_split_3) # ['python', ',', 'python2', ',', 'python3'] # ['python', 'python2,python3'] # ['python,python2,python3']