正則表達式

本文轉載自查看原文 2019-02-23 21:32 781

正則表達式（regular expression）是一種工具，一種廣泛用於匹配字符串的工具。它用一個“字符串”來描述一個特征，然后去驗證另一個“字符串”是否符合這個特征。比如表達式“ab+”描述的特征是“一個'a'和任意個'b'”，那么'ab','abb','abbbbbbbbbb'都符合這個特征。

在正式學習正則之前，你要牢記下面幾個事項：

1.正則表達式本質上是一門語言，它不從屬與 Python！Python 只是將他人寫好的正則引擎集成到了語言內部，大多數編程語言都是這么干的！

2.正則表達式誕生的時間很長，應用非常廣泛，是業界公認的字符串匹配工具。雖然有不同版本的內部引擎，但基本通用，也就是說，你在 Python 內寫的正則表達式，可以移植到 Linux 的 shell，Java 語言等任何支持正則的場景中去。

3.正則表達式默認從左往右匹配。

4.正則表達式默認是貪婪模式。

5.正則表達式默認在匹配到了內容后，則終止匹配，不繼續匹配。

6.對同一個問題，編寫的正則表達式不是唯一的

一、普通字符

字母、數字、漢字、下划線、以及沒有特殊定義的符號，都是"普通字符"。正則表達式中的普通字符，在匹配的時候，只匹配與自身相同的一個字符。

例如：表達式 c，在匹配字符串 abcde 時，匹配結果是：成功；匹配到的內容是 c；匹配到的位置開始於 2，結束於 3。（注：下標從 0 開始還是從 1 開始，因當前編程語言的不同而可能不同）

二、元字符

正則表達式中使用了很多元字符，用來表示一些特殊的含義或功能。

表達式	匹配
.	小數點可以匹配除了換行符\n 以外的任意一個字符
\|	邏輯或操作符
[]	匹配字符集中的一個字符
[^]	對字符集求反，也就是上面的反操作。尖號必須在方括號里的最前面
-	定義[]里的一個字符區間，例如[a-z]
\	對緊跟其后的一個字符進行轉義
()	對表達式進行分組，將圓括號內的內容當做一個整體，並獲得匹配的值

例如：

a.c 匹配 abc

(a|b)c 匹配 ac 與 bc

[abc]1 匹配 a1 或者 b1 或者 c1

使用方括號[]包含一系列字符，能夠匹配其中任意一個字符。用[^]包含一系列字符，則能夠匹配其中字符之外的任意一個字符。

[ab5@]匹配 a 或 b 或 5 或@

[^abc]匹配 a,b,c 之外的任意一個字符

[f-k]匹配 f~k 之間的任意一個字母

[^A-F0-3]匹配 A~F 以及 0~3 之外的任意一個字符

三、轉義字符

一些無法書寫或者具有特殊功能的字符，采用在前面加斜杠"\"進行轉義的方法。例如下表所示：

表達式	匹配
\r, \n	匹配回車和換行符
\t	匹配制表符
\\	匹配斜杠\
\^	匹配^符號
\$	匹配$符號
\.	匹配小數點.

尚未列出的還有問號？、星號*和括號等其他的符號。所有正則表達式中具有特殊含義的字符在匹配自身的時候，都要使用斜杠進行轉義。這些轉義字符的匹配方法與普通字符類似，也是匹配與之相同的一個字符。

例如表達式\$d，在匹配字符串"abc$de"時，匹配結果是：成功；匹配到的內容是$d；匹配到的位置開始於 3，結束於 5。

四、預定義匹配字符集

正則表達式中的一些表示方法，可以同時匹配某個預定義字符集中的任意一個字符。比如，表達式\d 可以匹配任意一個數字。雖然可以匹配其中任意字符，但是只能是一個，不是多個。如下表所示，注意大小寫：

表達式	匹配
\d	任意一個數字，0~9 中的任意一個
\w	任意一個字母或數字或下划線，也就是 A~Z,a~z,0~9,_ 中的任意一個
\s	空格、制表符、換頁符等空白字符的其中任意一個
\D	\d 的反集，也就是非數字的任意一個字符，等同於[^\d]
\W	\w 的反集，也就是[^\w]
\S	\s 的反集，也就是[^\s]

例如表達式\d\d，在匹配 abc123 時，匹配的結果是：成功；匹配到的內容是 12；匹配到的位置開始於 3，結束於 5。

五、重復匹配

前面的表達式，無論是只能匹配一種字符的表達式，還是可以匹配多種字符其中任意一個的表達式，都只能匹配一次。但是有時候我們需要對某個片段進行重復匹配，例如手機號碼 13666666666，一般的新手可能會寫成\d\d\d\d\d\d\d\d\d\d\d（注意，這不是一個恰當的表達式），不但寫着費勁，看着也累，還不一定准確恰當。這種情況可以使用表達式再加上修飾匹配次數的特殊符號{}，不用重復書寫表達式就可以重復匹配。比如[abcd][abcd]可以寫成[abcd]{2}。

表達式	匹配
{n}	表達式重復 n 次，比如\d{2}相當於\d\d,a{3}相當於 aaa
{m,n}	表達式至少重復 m 次，最多重復 n 次。比如 ab{1,3}可以匹配 ab 或 abb 或abbb
{m,}	表達式至少重復 m 次，比如\w\d{2,}可以匹配 a12,_1111,M123 等等
?	匹配表達式 0 次或者 1 次，相當於{0,1}，比如 a[cd]?可以匹配 a,ac,ad
+	表達式至少出現 1 次，相當於{1,}，比如 a+b 可以匹配 ab,aab,aaab 等等
*	表達式出現 0 次到任意次，相當於{0,}，比如\^*b 可以匹配 b,^^^b 等等

其中有些例子一定要注意！比如 ab{1,3}中重復的是 b 而不是 ab，(ab){1,3}這樣重復的才是 ab。表達式\^*b 中重復的是\^而不是^，要從左往右讀正則表達式，轉義符號有更高的優先級，需要和后面的字符整體認讀。表達式\d+\.?\d*在匹配 It costs $12.5 時，匹配的結果是：成功；匹配到的內容是12.5；匹配到的位置開始於 10，結束於 14。表達式 go{2,8}gle 在匹配 Ads by goooooogle 時，匹配的結果是：成功；匹配到的內容是 goooooogle；匹配到的位置開始於 7，結束於 17。

六、位置匹配

有時候，我們對匹配出現的位置有要求，比如開頭、結尾、單詞之間等等。

表達式	匹配
^	在字符串開始的地方匹配，符號本身不匹配任何字符
$	在字符串結束的地方匹配，符號本身不匹配任何字符
\b	匹配一個單詞邊界，也就是單詞和空格之間的位置，符號本身不匹配任何字符
\B	匹配非單詞邊界，即左右兩邊都是\w 范圍或者左右兩邊都不是\w 范圍時的字符縫隙

例如表達式^aaa 在匹配 xxx aaa xxx 時，匹配結果是：失敗。因為^要求在字符串開始的地方匹配。

表達式 aaa$在匹配 xxx aaa xxx 時，匹配結果是：失敗。因為$要求在字符串結束的地方匹配。

表達式.\b.在匹配@@@abc 時，匹配結果是：成功；匹配到的內容是@a；匹配到的位置開始於 2，結束於 4。

表達式\bend\b 在匹配 weekend,endfor,end 時，匹配結果是：成功；匹配到的內容是end；匹配到的位置開始於 15，結束於 18。

七、常用正則表達式

下面是網絡上收集的一些常用正則表達式，請參考使用。 PS:各位在復制粘貼的時候務必要小心前后多余的空格！

校驗數字的相關表達式：

功能	表達式
數字	^[0-9]*$
n 位的數字	^\d{n}$
至少 n 位的數字	^\d{n,}$
m-n 位的數字	^\d{m,n}$
零和非零開頭的數字	^(0\|[1-9][0-9]*)$
非零開頭的最多帶兩位小數的數字	^([1-9][0-9]*)+(.[0-9]{1,2})?$
帶 1-2 位小數的正數或負數	^(\-)?\d+(\.\d{1,2})?$
正數、負數、和小數	^(\-\|\+)?\d+(\.\d+)?$
有兩位小數的正實數	^[0-9]+(.[0-9]{2})?$
有 1~3 位小數的正實數	^[0-9]+(.[0-9]{1,3})?$
非零的正整數	^[1-9]\d*$
非零的負整數	^-[1-9]\d*$
非負整數	^\d+$
非正整數	^-[1-9]\d*\|0$
非負浮點數	^\d+(\.\d+)?$
非正浮點數	^((-\d+(\.\d+)?)\|(0+(\.0+)?))$
正浮點數	^[1-9]\d\.\d\|0\.\d[1-9]\d$
負浮點數	^-([1-9]\d\.\d\|0\.\d[1-9]\d)$
浮點數	^(-?\d+)(\.\d+)?$

校驗字符的相關表達式：

功能	表達式
漢字	^[\u4e00-\u9fa5]{0,}$
英文和數字	^[A-Za-z0-9]+$
長度為 3-20 的所有字符	^.{3,20}$
由 26 個英文字母組成的字符串	^[A-Za-z]+$
由 26 個大寫英文字母組成的字符串	^[A-Z]+$
由 26 個小寫英文字母組成的字符串	^[a-z]+$
由數字和 26 個英文字母組成的字符串	^[A-Za-z0-9]+$
由數字、26 個英文字母或者下划線組成的字符串	^\w+$
中文、英文、數字包括下划線	^[\u4E00-\u9FA5A-Za-z0-9_]+$
中文、英文、數字但不包括下划線等符號	^[\u4E00-\u9FA5A-Za-z0-9]+$
可以輸入含有^%&’,;=?$\”等字符	[^%&’,;=?$\x22]+
禁止輸入含有~的字符	[^~\x22]+

特殊場景的表達式:

功能	表達式
Email 地址	^\w+([-+.]\w+)@\w+([-.]\w+)\.\w+([-.]\w+)*$
域名	[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
InternetUR	[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
手機號碼	^(13[0-9]\|14[5\|7]\|15[0\|1\|2\|3\|5\|6\|7\|8\|9]\|18[0\|1\|2\|3\|5\|6\|7\|8\|9])\d{8}$
國內電話號碼	\d{3}-\d{8}\|\d{4}-\d{7}(0511-4405222、021-87888822)
身份證號	^\d{15}\|\d{18}$(15 位、18 位數字)
短身份證號碼	^([0-9]){7,18}(x\|X)?$ 或 ^\d{8,18}\|[0-9x]{8,18}\|[0-9X]{8,18}?$(數字、字母 x 結尾)
帳號是否合法	^[a-zA-Z][a-zA-Z0-9_]{4,15}$(字母開頭，允許 5-16 字節，允許字母數字下划線)
密碼	^[a-zA-Z]\w{5,17}$(以字母開頭，長度在 6~18 之間，只能包含字母、數字和下划線)
強密碼	^(?=.\d)(?=.[a-z])(?=.*[A-Z]).{8,10}$(必須包含大小寫字母和數字的組合，不能使用特殊字符，長度在 8-10 之間)
日期格式	^\d{4}-\d{1,2}-\d{1,2}
一年的 12 個月(01～09和 1～12	^(0?[1-9]\|1[0-2])$
一個月的 31 天(01～09和 1～31)	^((0?[1-9])\|((1\|2)[0-9])\|30\|31)$
xml 文件	^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x\|X][m\|M][l\|L]$
雙字節字符	[^\x00-\xff](包括漢字在內，可以用來計算字符串的長度(一個雙字節字符長度計 2，ASCII 字符計 1))
空白行的正則表達式	\n\s*\r (可以用來刪除空白行)
HTML 標記的正則表達式	<(\S?)[^>]>.?</\1>\|<.? />(對於復雜的嵌套標記依舊無能為力)
首尾空白字符的正則表達式	^\s\|\s$或(^\s)\|(\s$)(可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等))
騰訊 QQ 號	[1-9][0-9]{4,} (騰訊 QQ 號從 10000 開始)
中國郵政編碼	[1-9]\d{5}(?!\d) (中國郵政編碼為 6 位數字)
IP 地址提取	\d+\.\d+\.\d+\.\d+ (提取 IP 地址時有用)
IP 地址合法性判斷	((?:(?:25[0-5]\|2[0-4]\\d\|[01]?\\d?\\d)\\.){3}(?:25[0-5]\|2[0-4]\\d\|[01]?\\d?\\d))

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 0正則表達式正則表達式正則表達式（************************）正則表達式正則表達式 - (?!), (?:), (?=) /^正則表達式$/ 正則表達式正則表達式正則表達式（.*?）或（.*+）正則表達式