python正則表達式


正則表達式

正則表達式,又稱規則表達式。(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),計算機科學的一個概念。正則表達式通常被用來檢索、替換那些符合某個模式(規則)的文本。

作用

1.檢測某個字符串是否符合規則.比如:判斷手機號,身份證號是否合法
2.提取網頁字符串中想要的數據.比如:爬蟲中,提取網站天氣,信息,股票代碼,星座運勢等具體關鍵字

在線測試工具

http://tool.chinaz.com/regex/

正則表達式包含的元素種類

正則表達式由一些 [普通字符] 和一些 [元字符] 組成:

  (1)普通字符包括大小寫字母和數字
  (2)元字符具有特殊含義,大體種類分為如下:
    1.預定義字符集,字符組
    2.量詞
    3.邊界符
    4.分組

匹配單個字符 => [元字符] 預定義字符集

匹配多個字符 => [元字符] 量詞符號

 

貪婪匹配:   默認向更多次數匹配  (底層用的是回溯算法)

非貪婪匹配: 默認向更少次數匹配 (量詞的后面加?號)
  (1)量詞( * ? + {} )加上問號?表示非貪婪 惰性匹配
  (2)例:.*?w 表示匹配任意長度任意字符遇到一個w就立即停止

匹配開頭結尾 => [元字符] 邊界符號

匹配分組 => [元字符] 分組符號

分組

 1.正常分組 ()
  1) 正常情況下用()圓括號進行分組 可以用\1 反向引用第一個圓括號匹配的內容。
  2) (?:正則表達式) 表示取消優先顯示的功能

 2.命名分組
  3) (?P<組名>正則表達式) 給這個組起一個名字
  4) (?P=組名) 引用之前組的名字,把該組名匹配到的內容放到當前位置

正則表達式修飾符

正則相關函數

findall 匹配字符串中相應內容,返回列表 [用法: findall("正則表達式","要匹配的字符串")]
search 通過正則匹配出第一個對象返回,通過group取出對象中的值
match 驗證用戶輸入內容
split 切割
sub 替換
subn 替換
finditer 匹配字符串中相應內容,返回迭代器
compile 指定一個統一的匹配規則

 練習

字符組練習

>>> import re
>>> print(re.findall('a[abc]b','aab abb acb adb'))
['aab', 'abb', 'acb']
>>> print(re.findall('a[0123456789]b','a1b a2b a3b acb ayb'))
['a1b', 'a2b', 'a3b']
>>> print(re.findall('a[abcdefg]b','a1b a2b a3b acb ayb adb'))
['acb', 'adb']
>>> print(re.findall('a[ABCDEFG]b','a1b a2b a3b aAb aDb aYb'))
['aAb', 'aDb']
>>> print(re.findall('a[0-9a-zA-Z]b','a-b aab aAb aWb aqba1b'))
['aab', 'aAb', 'aWb', 'aqb', 'a1b']
>>> print(re.findall('a[0-9][#/]b','a1/b a2b a29b a56b a456b'))
['a1/b']
>>> print(re.findall('a[^-+/]b','a%b ccaabda&bd'))
['a%b', 'aab', 'a&b']

 量詞練習

1) ? 匹配0個或者一個

>>> print(re.findall('a?b','abbzab abb aab'))
['ab', 'b', 'ab', 'ab', 'b', 'ab']

2) + 匹配一個或者多個

>>> print(re.findall('a+b','b ab aaaaaab abb'))
['ab', 'aaaaaab', 'ab']

3) * 匹配0個或者多個

>>> print(re.findall('a*b','b ab aaaaaab abbbbbbb'))
['b', 'ab', 'aaaaaab', 'ab', 'b', 'b', 'b', 'b', 'b', 'b']

4) {m,n} 匹配m個至n個

>>> print(re.findall('a{1,3}b','aaab ab aab abbb aaz aabb'))
['aaab', 'ab', 'aab', 'ab', 'aab']

貪婪匹配

>>> print(re.findall('a.*b','aab ab aaaaab a!!!@#$bz'))
['aab ab aaaaab a!!!@#$b']

 非貪婪匹配

>>> print(re.findall('a.*?b','aab ab aaaaab a!!!@#$bz'))
['aab', 'ab', 'aaaaab', 'a!!!@#$b']

 邊界符練習

>>> strvar = "abacad"
>>> print(re.findall('a.',strvar))
['ab', 'ac', 'ad']
>>> print(re.findall('^a.',strvar))
['ab']
>>> print(re.findall('a.$',strvar))
['ad']
>>> print(re.findall('^a.$',strvar))
[]
>>> print(re.findall('^a.*?$',strvar))
['abacad']
>>> print(re.findall('^a.*?a$',strvar))
[]
>>> print(re.findall('^a.*?d$',strvar))
['abacad']
>>> print(re.findall('^g.*? ','giveme 1gfive gay'))
['giveme ']
>>> print(re.findall('five$','aassfive'))
['five']
>>> print(re.findall('^giveme$','giveme'))
['giveme']
>>> print(re.findall('^giveme$','giveme giveme'))
[]
>>> print(re.findall('giveme','giveme giveme'))
['giveme', 'giveme']
>>> print(re.findall('^g.*e','gimeme 1gfive gay'))
['gimeme 1gfive']

 分組練習(括號)

>>> print(re.findall('.*?_z','a_z b_z c_z'))
['a_z', ' b_z', ' c_z']
>>> print(re.findall('(.*?)_z','a_z b_z c_z'))
['a', ' b', ' c']
>>> print(re.findall('(?:.*?)_z','a_z b_z c_z'))
['a_z', ' b_z', ' c_z']

| 代表或 , a|b 匹配字符a 或者 匹配字符b . 把字符串長的寫在前面,字符串短的寫在后面

1. 整數或者小數:^[0-9]+([.][0-9]+){0,1}$

search函數

search函數只匹配到一個就返回,返回的是對象,可以讓分組的內容和正常匹配的結果同時顯示

group獲取對象獲取到的值

>>> obj = re.search('171[0-9]{8}|135\d{8}','17188886666 13566668888')
>>> obj
<_sre.SRE_Match object; span=(0, 11), match='17188886666'>
>>> res = obj.group()
>>> res
'17188886666'

groups顯示分組里所有內容

>>> obj = re.search('(www)\.(baidu|google)\.(com)','www.baidu.com wwww.google.com')
>>> obj
<_sre.SRE_Match object; span=(0, 13), match='www.baidu.com'>
>>> print(obj.group())
www.baidu.com
>>> print(obj.groups())
('www', 'baidu', 'com')


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM