LinuxShell——正則表達式


LinuxShell——正則表達式

摘要:本文主要學習了Shell中的正則表達式。

簡介

含義

正則表達式,也稱作正規表示法,是用於描述字符排列和匹配模式的一種語法規則,它主要用於字符串的模式分割、匹配、査找及替換操作。

正則表達式是用來匹配文件中的字符串的方法,它會先把整個文本分成一行一行的字符串,然后從每行字符串中搜索是否有符合正則表達式規則的字符串,如果有則匹配成功,如果沒有則匹配失敗。

正則表達式和通配符的區別

正則表達式用來在文件中匹配符合條件的字符串,通配符用來匹配符合條件的文件名。其實這種區別只在Shell中適用,因為用來在文件中搜索字符串的命令,如grep、awk、sed等可以支持正則表達式,而在系統中搜索文件的命令,如ls、find、cp等不支持正則表達式,所以只能使用Shell自己的通配符來進行匹配了。

語系對正則表達式的影響

不同環境下語系不同,可能使用正則表達式選取的結果也會有所差異。

使用之前設置語系:

1 [root@localhost ~]# export LANG=C
2 [root@localhost ~]# export LC_ALL=C

元字符

在正則表達式中,我們把用於匹配的特殊符號又稱作元字符。在Shell中,元字符又分為基礎元字符和擴展元字符。

基礎元字符

 1 *:前一個字符匹配0次或任意多次。
 2 .:匹配除換行符外的任意一個字符。
 3 ^:匹配行首。例如:^hello會匹配以hello開頭的行。
 4 $:匹配行尾。例如:hello&會匹配以hello結尾的行。
 5 []:匹配中括號里的任意一個字符,而且只匹配一個字符。例如:[aoeiu]匹配任意一個元音字母,[0-9]匹配任意一位數字,[a-z][0-9]匹配由小寫字母和一位數字構成的兩位字符。
 6 [^]:匹配除了中括號里的字符以外的任意一個字符。例如:[^0-9]匹配任意一位非數字字符,[^a-z]匹配任意一位非小寫字母。
 7 \:轉義符,用於取消特殊符號的含義。
 8 \{n\}:表示其前面的字符恰好出現n次。例如:[0-9]\{4\}匹配4位數字,[1][3-8][0-9]\{9\}匹配手機號碼。
 9 \(n,\}:表示其前面的字符出現不少於n次。例如:[0-9]\{2,\}匹配兩位及以上的數字。
10 \{n,m\}:表示其前面的字符至少出現n次,最多出現m次。例如:[a-z]\{6,8\}匹配6到8位的小寫字母。

1)*

正則表達式中的“*”和通配符中的“*”含義不同,正則表達式中的代表前一個字符重復0次或任意多次。

舉例:

“a*”並不是匹配a后面的任意字符,而是可以匹配所有內容,包括空白行,所以“a*”是沒有意義的。

“aa*”會匹配至少包含一個a的字符串。

“a*b”並不能匹配a和b之間有任意字符的字符串,只能匹配包含了b的字符串。

2).

正則表達式中的“.”只能匹配一個字符,這個字符可以是任意字符。

舉例:

“a.b”會匹配a和b之間有一個字符的字符串。

“a.*b”會匹配a和b之間有任意字符的字符串。

3)^

正則表達式中的“^”代表匹配行首。

舉例:

“^M”會匹配以“M”開頭的行。

4)$

正則表達式中的“$”代表匹配行尾。

舉例:

“n$”會匹配以“n”結尾的行。

5)[]

正則表達式中的“[]”會匹配中括號里指定的任意一個字符,注意只能匹配一個字符。

舉例:

“[ao]”要么匹配一個a字符,要么匹配一個o字符。

“[A-Z]”會匹配任意一個大寫字母。

6)[^]

正則表達式中的“[^]”會匹配除了中括號里的字符以外的任意一個字符。

舉例:

“^[^a-zA-Z]”會匹配不以字母開頭的行。

7)\

轉義符會取消特殊符號的含義,將其作為正常的字符串來匹配。

舉例:

“.$”不能匹配使用.結尾的行,因為.有特殊含義,可以使用“\.$”來匹配使用.結尾的行。

8)\{n\}

正則表達式中的“\{n\}”表示其前面的字符恰好出現n次。

舉例:

“a\{3\}”會匹配a字母連續出現3次的字符串,但不會限制之后的字符串,當然也會匹配到“aaaa”。

“a\{3\}[^a]”會匹配a字母連續出現3次的字符串,並且之后不為a的字符串,也就是只匹配a字母連續出現3次的字符串。

9)\{n,\}

正則表達式中的“\{n,\}”表示其前面的字符出現不少於n次。

舉例:

“^[0-9]\{3,\}”會匹配最少連續3個數字開頭的字符串。

10)\{n,m\}

正則表達式中的“\{n,m\}”表示其前面的字符出現不少於n次,不超過m次。

舉例:

“ao\{1,3\}e”會匹配在字母a和字母e之間最少1個、最多3個的o字符串。

擴展元字符

在正則表達式中還有一些元字符,被稱為擴展元字符。有的命令支持這種元字符,比如awk命令,有的命令不支持這種元字符,比如sed命令和grep命令。

1 +:前一個字符匹配1次或任意多次。例如:a+b匹配以a開始以b結尾的字符串。
2 ?:前一個字符匹配0次或1次。例如:a?b匹配ab或者b。
3 |:匹配兩個或多個分支選擇。例如:a|b|c匹配a或者b或者c。
4 ():匹配其整體為一個字符,即模式單元。可以理解為由多個單個字符組成的大字符。例如:(abc)+會匹配重復abc這個整體一次或多次的字符串。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM