re模塊簡介:
正則表達式是一個特殊的字符序列,它能幫助你方便的檢查一個字符串是否與某種模式匹配,而re模塊就是python中實現正則的模塊
正則表達式簡介:
非打印字符:
非打印字符也可以是正則表達式的組成部分。下表列出了表示非打印字符的轉義序列:
字符 | 描述 |
---|---|
\cx | 匹配由x指明的控制字符。 |
\f | 匹配一個換頁符。等價於 \x0c 和 \cL。 |
\n | 匹配一個換行符。等價於 \x0a 和 \cJ。 |
\r | 匹配一個回車符。等價於 \x0d 和 \cM |
\s | 匹配任何空白字符,包括空格、制表符、換頁符等等。 |
\S | 匹配任何非空白字符。等價於 [^ \f\n\r\t\v]。 |
\t | 匹配一個制表符。等價於 \x09 和 \cI。 |
\v | 匹配一個垂直制表符。等價於 \x0b 和 \cK。 |
限定符
限定符用來指定正則表達式的一個給定組件必須要出現多少次才能滿足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6種。
正則表達式的限定符有:
字符 | 描述 |
---|---|
* | 匹配前面的子表達式零次或多次 |
+ | 匹配前面的子表達式一次或多次 |
? | 匹配前面的子表達式零次或一次 |
{n} | n 是一個非負整數 |
{n,} | n 是一個非負整數 |
{n,m} | m 和 n 均為非負整數,其中n <= m。最少匹配 n 次且最多匹配 m 次 |
所謂特殊字符,就是一些有特殊含義的字符:
特別字符 | 描述 |
---|---|
$ | 匹配輸入字符串的結尾位置 |
( ) | 標記一個子表達式的開始和結束位置 |
* | 匹配前面的子表達式零次或多次 |
+ | 匹配前面的子表達式一次或多次 |
. | 匹配除換行符 \n 之外的任何單字符 |
[ | 標記一個中括號表達式的開始 |
? | 匹配前面的子表達式零次或一次,或指明一個非貪婪限定符 |
\ | 將下一個字符標記為或特殊字符、或原義字符、或向后引用、或八進制轉義符 |
^ | 匹配輸入字符串的開始位置,除非在方括號表達式中使用,當該符號在方括號表達式中使用時,表示不接受該方括號表達式中的字符集合 |
{ | 標記限定符表達式的開始。要匹配 {,請使用 \{ |
| | 指明兩項之間的一個選擇。要匹配 |,請使用 \| |
限定符
限定符用來指定正則表達式的一個給定組件必須要出現多少次才能滿足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6種。
字符 | 描述 |
---|---|
* | 匹配前面的子表達式零次或多次 |
+ | 匹配前面的子表達式一次或多次 |
? | 匹配前面的子表達式零次或一次 |
{n} | n 是一個非負整數 |
{n,} | n 是一個非負整數 |
{n,m} | m 和 n 均為非負整數,其中n <= m |
定位符
定位符使您能夠將正則表達式固定到行首或行尾
字符 | 描述 |
---|---|
^ | 匹配輸入字符串開始的位置 |
$ | 匹配輸入字符串結尾的位置 |
\b | 匹配一個單詞邊界,即字與空格間的位置。 |
\B | 非單詞邊界匹配。 |
re模塊的基本使用:
直接import re 即可
re.match函數
re.match 嘗試從字符串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回none。
re.match(pattern, string, flags=0)
參數 | 描述 |
---|---|
pattern | 匹配的正則表達式 |
string | 要匹配的字符串。 |
flags | 標志位,用於控制正則表達式的匹配方式 |
我們可以使用group(num) 或 groups() 匹配對象函數來獲取匹配表達式。
匹配對象方法 | 描述 |
---|---|
group(num=0) | 匹配的整個表達式的字符串,group() 可以一次輸入多個組號,返回一個包含那些組所對應值的元組。 |
groups() | 返回一個包含所有小組字符串的元組,從 1 到 所含的小組號。 |
#示例代碼 print(re.match('\w+', 'newdream.com').group()) #起始位置匹配字符,\w匹配字母數字及下划線 + 匹配前面的子表達式一次或多次 運行結果: newdream
re.search方法
re.search 掃描整個字符串並返回第一個成功的匹配
re.search(pattern, string, flags=0)
參數 | 描述 |
---|---|
pattern | 匹配的正則表達式 |
string | 要匹配的字符串。 |
flags | 標志位,用於控制正則表達式的匹配方式 |
#示例代碼 print(re.search('new(.+?)am', 'newdream new newd5555ream ').group()) #new(.+?)am:匹配new開頭,am結尾。newdream newd5555ream 滿足條件,只返回第一個 #運行結果 newdream
re.findall
在字符串中找到正則表達式所匹配的所有子串,並返回一個列表,如果沒有找到匹配的,則返回空列表。
參數:
- string : 待匹配的字符串。
- pos : 可選參數,指定字符串的起始位置,默認為 0。
- endpos : 可選參數,指定字符串的結束位置,默認為字符串的
#示例代碼 print(re.findall('new(.+?)am', 'newdream nssewdsds newd5555ream'))
#運行結果
['dre', 'd5555re']
re.split
split 方法按照能夠匹配的子串將字符串分割后返回列表,它的使用形式如下:
re.split(pattern, string[, maxsplit=0, flags=0])
參數 | 描述 |
---|---|
pattern | 匹配的正則表達式 |
string | 要匹配的字符串。 |
flags | 標志位,用於控制正則表達式的匹配方式 |
#示例代碼 print(re.split('\d+', 'newdream55nssewdsds66newd5555ream ')) #'\d+:匹配有一個或者多個數字 #運行結果 ['newdream', 'nssewdsds', 'newd', 'ream ']
re.compile 函數
compile 函數用於編譯正則表達式,生成一個正則表達式( Pattern )對象
re.compile(pattern[, flags])
參數:
-
pattern : 一個字符串形式的正則表達式
-
flags : 可選,表示匹配模式,比如忽略大小寫,多行模式等,具體參數為:
- re.I 忽略大小寫
- re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴於當前環境
- re.M 多行模式
- re.S 即為 . 並且包括換行符在內的任意字符(. 不包括換行符)
- re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依賴於 Unicode 字符屬性數據庫
- re.X 為了增加可讀性,忽略空格和 # 后面的注釋
剛剛學會的split方法可以這樣寫:
#示例代碼 pattern = re.compile(r'\d+') print(pattern.split( 'newdream55nssewdsds66newd5555ream ')) #運行結果 ['newdream', 'nssewdsds', 'newd', 'ream ']
同理可得,match,search,findall都可以這樣寫,方便以后拓展。今天的基礎介紹結束,以后有更高級的用法在分享吧!