Linux中awk后面的RS, ORS, FS, OFS 含義

本文轉載自查看原文 2017-05-26 14:03 2361 shell

轉載自http://blog.csdn.net/qq416647781/article/details/40649419

一、 RS 與 ORS 差在哪

我們經常會說，awk是基於行列操作文本的，但如何定義“行”呢？這就是RS的作用。
默認情況下，RS的值是\n。下面通過實例來理解下RS。
echo '1a2a3a4a5' | awk '{print $1}'

1a2a3a4a5

echo '1a2a3a4a5' | awk 'BEGIN{RS="a"}{print $1}'

5
我們可以看到，在更改了RS的值后，awk定義的行已經不是我們實際意義中的行了。
上面RS固定的字符串，RS也可以定義為正則表達式。
echo '1ab2bc3cd4de5' | awk 'BEGIN{RS="[a-z]+"}{print $1,RS,RT}'

1 [a-z]+ ab

2 [a-z]+ bc

3 [a-z]+ cd

4 [a-z]+ de

5 [a-z]+
當我們將RS設置為正則表達式的時候，RT這個變量就有作用了， RS的值始終為我們設定的正則，RT的值則是這個正則實際匹配到的內容。

如果RS被設置為空，那么awk會將連續的空行作為行分隔符，與RS設置成"\n\n+"有什么區別？？？
1、忽略文件開頭和結尾的空行。且文件不以記錄分隔符結束，即最后不是空行，會將最后一個記錄的尾\n去掉
2、不設置RT變量（測試未發現規律，暫時認為RT變量不可用）
3、影響FS變量

總結下RS的3種情況：
1) 非空字符串
     以固定字符串作為行分隔符，同時設置變量RT為固定字符串
2) 正則表達式
     以正則表達式作為行分隔符，同時設置變量RT為正則表達式實際匹配到的字符串
3) 空字符
     以連續的空行作為行分隔符，如果FS為單個字符，會將\n強制加入到FS變量中

理解了RS，再來理解ORS就簡單了。RS是awk讀取文件時的行分隔符，ORS則是awk輸出時的行結束符。
更簡單的講，就是awk在輸出時，會在每行記錄后面增加一個ORS變量所設定的值。
ORS的值只能設定為字符串，默認情況下，ORS的值是\n
seq 5 | awk '{print $0}'

seq 5 | awk 'BEGIN{ORS="a"}{print $0}'

1a2a3a4a5a
我們平常用的 print $0 等價於 printf $0 ORS

二、FS 與 OFS 差在哪

RS是awk用來定義“行”的，那么FS就是awk用來定義“列”的。
設置變量 FS 與使用 -F 參數是一樣的。
echo '1,2' | awk -F , '{print $1}'

echo '1,2' | awk 'BEGIN{FS=","}{print $1}'

1
與 RS 類似，FS 同樣可以設置為正則表達式
echo '1ab2bc3cd4de5' | awk 'BEGIN{FS="[a-z]+"}{print $1,$2,$5}'

1 2 5
FS 有1個特例，就是將FS設置為一個空格，FS=" " ，這也是FS的默認值
1.In the special case that FS is a single space, fields are separated by runs of spaces and/or tabs and/or newlines.
此時，awk會將連續的空格或制表符(\t) 或換行符(\n) 作為列的分隔符
那么，FS=" " 與 FS="[ \t\n]+" 有區別么？？？
答案是肯定的
echo ' 1 2' | awk 'BEGIN{FS=" "}{print $1}'

echo ' 1 2' | awk 'BEGIN{FS="[ \t\n]+"}{print $1}'

當FS=" "時，awk會自動去掉行首和行尾的空格或制表符(\t) 或換行符(\n)，但FS="[ \t\n]+"是不會的
同樣，FS也可以設置為空
echo '123' | awk 'BEGIN{FS=""}{print $1,$2}'

1 2
當FS被設置為空字符串的時候，awk會將一行記錄的每個字符做為單獨的一列
類似的，當我們想以固定的長度來分隔列的時候，可以使用 FIELDWIDTHS 來代替 FS
例如，一行記錄的前3個字符作為第一列，接下來的2個字符作為第二列，接下來的4個字符作為第三列
echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 4"}{print $1,$2,$3}'

123 45 6789

echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 3"}{print $1,$2,$3}'

123 45 678

echo '123456789' | awk 'BEGIN{FIELDWIDTHS="3 2 5"}{print $1,$2,$3}'

123 45 6789
如果定義的長度小於實際的長度，awk會截斷，如果大於實際長度，則以實際長度為准。

總結下FS的4種情況：
1) 非空字符串
     以固定字符串作為列分隔符
2) 正則表達式
     以正則表達式作為列分隔符
3) 單個空格
     以連續的空格或制表符(\t) 或換行符(\n)作為列分隔符
4) 空字符
     以每個字符做為單獨的一列

接下來我們來看看上節提到的問題：
當 RS="" 時，會將\n強制加入到FS變量中
cat urfile

awk -v RS="" '{print "#" $0 "#"}' urfile

#3#

awk -F "b" -v RS="" '{print $1}' urfile

awk -F "c" -v RS="" '{print $1}' urfile

awk -F "c" -v RS="\n\n+" '{print "#" $1 "#"}' urfile

#
如果FS為單個字符，\n始終存在在 FS 中，而 RS="\n\n+" 則不會。

了解的 FS ，我們來看看 OFS ，FS是awk讀入記錄時的列分隔符，OFS則是awk輸出時的列分隔符。
我們平時使用的 print $1,$2 等價於 print $1 OFS $2
echo '1 2' | awk -v OFS="|" '{print $1,$2}'

1|2

echo '1 2' | awk -v OFS="|" '{print $1 OFS $2}'

1|2
如果一行記錄有很多列，同時想改變輸出的分隔符，print $1,$2,$3 ... 啟不是很麻煩？
當然有簡單的方法：
echo '1 2 3 4 5' | awk -v OFS="|" '{print $0}'

1 2 3 4 5

echo '1 2 3 4 5' | awk -v OFS="|" '{$1=$1;print $0}'

1|2|3|4|5

echo '1 2 3 4 5' | awk -v OFS="|" '{NF+=0;print $0}'

1|2|3|4|5

為了使OFS的設置生效，需要改變 $0 ，這里我們是對 awk 撒了個小謊
$1=$1 或者 NF+=0， $0 本身的內容實際上沒有任何改變，只是為了使 OFS 的設置生效

在理解了 RS 和 FS 之后，我們來回顧開始的那句話：“awk是基於行列操作文本的”
這個說法實際上不是很准確，因為在改變了 RS 后，awk 中的“行”已經不是一般的“行”了
同樣，改變了 FS 后，awk 中的“列”也已經不是一般的“列”了
因此，准確的應該這樣講：“awk是基於記錄(record) 和域(field) 操作文本的”

三、0 與 "0" 差在哪

我們先來看一個例子：
awk 'BEGIN{if(0) print "true";else print "false"}'

false

awk 'BEGIN{if("0") print "true";else print "false"}'

true
為什么同樣是 0 ，結果卻不一樣？
其實要解釋這個問題，只需要弄清楚awk中的“真”與“假”。
以下3種情況是“假”，其他情況都為“真”
1) 數字 0
2) 空字符串
3) 未定義的值
awk 'BEGIN{a=0;if(a) print "true";else print "false"}'

false

awk 'BEGIN{a="";if(a) print "true";else print "false"}'

false

awk 'BEGIN{if(a) print "true";else print "false"}'

false

awk如何去重？
1.awk '! a[$0] ++'

在解釋之前，我們先要了解awk的一個特性：
awk 會根據語境來給未定義的變量賦初始值
awk 'BEGIN{print a "" 1}'

awk 'BEGIN{print a + 1}'

1

對於未定義的變量，如果要進行字符串操作，會被賦成空字符串 ""
如果要進行數學運算，會被賦成數字 0

現在我們看看上面的代碼 ! a[$0] ++ 等價於 if(! a[$0] ++) print $0
對於首次出現的記錄，a[$0]的值是未定義的，由於后面的 ++ 是數學計算，所以a[$0]會被賦值成數字0
也是由於 ++ 操作符，會先取值，再計算，所以對於第一行記錄實際上是if(! 0) print $0
! 是取反，0 是假，! 0 就是真，那么就會執行后面的 print $0
對於后面出現的重復記錄，a[$0] 經過 ++ 的計算已經變為 1、2、3 。。。
而 ! 1 ! 2 ! 3 ... 都為假，不會打印。

下面我們用黑哥的一段代碼來深刻體會一下，用awk打印奇數行：
seq 10 | awk 'i=!i'

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Linux中awk后面的RS, ORS, FS, OFS 用法把文件每隔三行合並成一行（awk之RS、ORS與FS、OFS）關於awk中NR、FNR、NF、$NF、FS、OFS的說明關於awk中NR、FNR、NF、$NF、FS、OFS的說明 Linux：批量修改分隔符（awk、BEGIN、FS、OFS、print、tr命令） awk中的FS awk 中 FS的用法 python中函數里面冒號和函數后面的箭頭是什么含義 awk中NF，NR的含義 json.dump后面的參數 separators的含義