linux正則表達式

本文轉載自查看原文 2018-08-04 17:54 7169 linux運維之路

第1章什么是正則表達式

正則表達式就是為了處理大量的文本|字符串而定義的一套規則和方法
通過定義的這些特殊符號的輔助，系統管理員就可以快速過濾，替換或輸出需要的字符串。Linux正則表達式一般以行為單位處理。

簡單說

為處理大量文本|字符串而定義的一套規則和方法
以行為單位出來，一次處理一行

正則表達式是一種描述一組字符串的模式，類似數字表達式，通過各種操作符組成更小的表達式

第2章為何使用正則表達式

linux運維工作，大量過濾日志工作，化繁為簡。
簡單，高效。
正則表達式高級工具；三劍客都支持

第3章容易混淆的兩個注意事項

正則表達式應用非常廣泛，存在於各種語言中，php perl grep sed awk 支持。ls * 通配符
但現在學的是Linux中的正則表達式，最常應用正則表達式的命令是grep（egrep），sed，awk。
正則表達式和通配符有本質區別

正則表達式用來找：【文件】內容，文本，字符串。一般只有三劍客支持
通配符用來找：文件名，普通命令都支持

第4章正則表達式使用注意事項

linux正則表達式以行為單位處理字符串
便於區別過濾出來的字符串，一定配合grep／egrep命令學習。

QQ20170113-120100@2x.png-44.5kB

注意字符集，exportLC_All=C:無論何時，做何事都要注意字符集

第5章正則表達式的分類

POSIX規范將正則表達式的分為了兩種

基本正則表達式（BRE，basic regular expression）
高級功能：擴展正則表達式（ERE，extended regular expression）

5.1 BRE和ERE的區別僅僅是元字符的不同：

BRE（基礎正則表達式）只承認的元字符有^$.[]*其他字符識別為普通字符：
ERE(擴展正則表達式）則添加了（）{}?+|等
只有在用反斜杠“”進行轉義的情況下，字符（）{}才會在BRE被當作元字符處理，而ERE中，任何元符號前面加上反斜杠反而會使其被當作普通字符來處理。

第6章如何區分通配符和正則表達式

不需要思考的判斷方法：在三劍客awk，sed，grep，egrep都是正則，其他都是通配符
區別通配符和正則表達式最簡單的方法：

（1）文件目錄名===>通配符
（2）文件內容（字符串，文本【文件】內容）===>正則表達式

通配符和正則表達式都有“*”，“?”，“【】”，但是通配符的這些符號都能自身代表任意字符，而正則表達式的這些符號只能代表這些符號前面的字符

第7章基本正則表達式

7.1 基礎正則表達式

字符	描述
^	^word搜索以word開頭的內容

QQ20170113-132202@2x.png-30.8kB

$	word$搜索以word結尾的內容

QQ20170113-132502@2x.png-36.3kB

^$	表示空行，不是空格

QQ20170113-192441@2x.png-133.1kB

.	代表且只能代表任意一個字符（不匹配空行）

QQ20170113-192802@2x.png-19.3kB

\	轉義字符，讓有特殊含義的字符脫掉馬甲，現出原形，如\.只表示小數點

QQ20170113-193830@2x.png-29.5kB

*	重復之前的字符或文本0個或多個，之前的文本或字符連續0次或多次

QQ20170113-200334@2x.png-86.6kB

.*	任意多個字符

QQ20170113-195151@2x.png-83.1kB

^.*	以任意多個字符串開頭，.*盡可能多，有多少算多少，貪婪性

QQ20170114-093126@2x.png-45.7kB

括號表達式
[abc][0-9][\.,/]	匹配字符集合內的任意一個字符a或b或c：[a-z]匹配所有小寫字母；表示一個整體，內藏無限可能；[abc]找a或b或c可以寫成[a-c]

QQ20170114-100040@2x.png-82.2kB

[^abc]	匹配不包含^后的任意字符a或b或c，是對[abc]的取反，且與^含義不同

QQ20170114-100916@2x.png-37.3kB

a\{n,m\}	重復前面a字符n到m次（如果用egrep或sed -r可去掉斜線）

QQ20170114-102002@2x.png-67.9kB

a\{n,\}	重復前面a字符至少n次，如果用egrep或sed -r可去掉斜線
a\{n\}	重復前面a字符n次，如果用egrep或sed -r可去掉斜線
---	---

第8章擴展正則表達式ERE

特殊字符	含義與例子
+	重復前一個字符一次或一次以上，前一個字符連續一個或多個，把連續的文本／字符取出

QQ20170114-104142@2x.png-97.8kB

？	重復前面一個字符0次或1次（.是有且只有1個）

QQ20170114-104617@2x.png-55.8kB

管道符	表示或者同時過濾多個字符

屏幕快照 2017-01-14 上午10.57.12.png-92.5kB

（）	分組過濾被括起來的東西表示一個整體（一個字符），后向引用

QQ20170114-111147@2x.png-72.7kB

第9章正則小結

基礎正則：BRE
|^|$|.||.|[abc]|[^abc]|
|---|---|
擴展正則：ERE
|+|||?|()|{}|a{n,m}|a{n,}|a{n}|
|---|---|
轉義字符\:將字符的意思改變（不支持正則符號的，轉變字符含義為正則，支持正則的轉變為普通字符含義）

注意：

grep默認不支持正則，因此正則表達式的符號對於grep來說就等同於普通字符含義，因此，想讓grep直接處理正則符號必須通過轉義字符\{\}來處理。

grep -E 強制讓grep直接認識正則符號，不需要再進行轉義

egrep 等效grep -E 天生就能認識正則符號

我們平時備份可以通過cp 文件名{,.bak}的形式進行，避免再打一次文件名
sed -r ：讓sed支持正則

第10章基本正則和擴展正則區別

基礎正則BRE	擴展正則ERE
\?	?
\+	+
\{\}	{}
\( \ )	()
\

所謂基礎正則實際上就是得需要轉義字符配合表達的正則，而擴展正則就是讓命令擴展它的權限讓他直接就認識正則表達符號（egrep，sed -r，awk直接支持）

第11章補充說明

11.1 一些預定義的：

正則表達式	描述	示例
[:alnum:]	[a-zA-Z0-9]匹配任意一個字母或數字字符	[[:alnum:]]+
[:alpha:]	匹配任意一個字母字符（包括大小寫字母）	[[:alpha:]]{4}
[:blank:]	空格與制表符（橫向縱向）	[[:blank:]]*
[:digit:]	匹配任意一個數字字符	[[:digit:]]?
[:lower:]	匹配小寫字母	[[:lower:]]{5,}
[:upper:]	匹配大寫字母	([[:upper:]]+)?
[:punct:]	匹配標點符號	[[:punct:]]
[:space:]	匹配一個包括換行符，回車等在內的所有空白符	[[:space:]]+
[:graph:]	匹配任何一個可以看得見的且可以打印的字符	[[:graph:]]
[:xdigit:]	任何一個十六進制數	[[:xdigit:]]+
[:cntrl:]	任何一個控制字符（ASCII字符集中的前32個字符）	[[:cntrl:]]
[:print:]	任何一個可以打印的字符	[[:print:]]

11.2 元字符

元字符是一種Perl風格的正則表達式，只有一部分文本處理工具支持它，並不是所有的文本處理工具都支持

正則表達式	描述	示例
\b	單詞邊界	\bcool\b匹配cool，不匹配coolant
\B	非單詞邊界	cool\B匹配coolant不匹配cool
\d	單個數字字符	b\db匹配b2b，不匹配bcb
\D	單個非數字字符	b\Db匹配bcb不匹配b2b
\w	單個單詞字符（字母，數字與_)	\w匹配1或a，不匹配&
\W	單個非單詞字符	\W匹配&，不匹配1或a
\n	換行符	\n匹配一個新行
\s	單個空白字符	x\sx匹配xx，不匹配xx
\S	單個非空白字符	x\S\x匹配xkx，不匹配xx
\r	回車	\r匹配回車
\t	橫向制表符	\t匹配一個橫向制表符
\v	垂直制表符	\v匹配一個垂直制表符
\f	換頁符	\f匹配一個換頁符

第12章正則表達式總結

egrep／grep 了解一下正則，簡單看看效果，結果
egrep／grep -o 參數看正則到底匹配了什么
多練就好，配合grep，egrep，sed -r，awk更為強大

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Linux中的正則表達式 Linux之正則表達式2之()、[]、{}區別 linux正則表達式 linux 正則表達式和通配符 Linux正則表達式 Linux sed之正則表達式 Linux之grep及正則表達式 linux正則表達式 linux grep 正則表達式 linux正則表達式（基礎正則表達式+擴展正則表達式）