一、split
awk的內建函數split允許你把一個字符串分隔為單詞並存儲在數組中。你可以自己定義域分隔符或者使用現在FS(域分隔符)的值。
格式:
split (string, array, field separator)
split (string, array) -->如果第三個參數沒有提供,awk就默認使用當前FS值。
1、time="12:34:56" echo $time | awk '{split($0,a,":");print a[1],a[2],a[3]}' 12 34 56
2、 [root@tian1 zhiping.wang]# cat test.txt Tom 2012-12-11 car 53000 John 2013-01-13 bike 41000 vivi 2013-01-18 car 42800 Tom 2013-01-20 car 32500 John 2013-01-28 bike 63500 輸出一月份每個員工的工資: cat test.txt | awk '{split($2,a,"-");if(a[2]=01){sum[$1]+=$4}}END{for(i in sum) print sum[i],i}'
二、substr截取字符串
返回從起始位置起,指定長度之子字符串;若未指定長度,則返回從起始位置到字符串末尾的子字符串。
格式:
substr(s,p)返回字符串s中從p開始的后綴部分
substr(s,p,n)返回字符串s中從p開始長度為n的后綴部分
echo "123" | awk '{print substr($0,1,1)}' 1
awk -F ':' '{print substr($3,6)}' ----> 表示從第三個字段里的第六個字符開始,一直到設定的分隔符“,”結束
sub($3,10,8) ----->表示從第三個字段里的第十個字段開始,截取八個字符結束
substr($3,6) ---->表示從第三個字段里的第六個字符開始,一直到結尾
三、length 字符串長度
length函數返回沒有參數的字符串的長度。length函數返回整個記錄中的字符數
echo "123" | awk '{print length}'
四、gsub函數
gsub函數則使得在所有正則表達式被匹配的時候都發生替換。gsub(regular expression,subsitution string,target string);簡稱gsub (r,s,t)
舉例:把一個文件里面所有包含abc的行里面的abc替換成def,然后輸出第一列和第三列
awk '$0 ~ /abc/ {gsub("abc", "def", $0); print $1, $3}' test.txt
五、next
在awk中,如果調用next,那么next之后的命令就都在執行了,此行文本的處理到此結束,那么讀取下一條記錄並操作
在看一個例子關於NR和FNR的典型應用:
現在有兩個文件格式如下:
#cat account 張三|000001 李四|000002 #cat cdr 000001|10 000001|20 000002|30 000002|15 想要得到的結果是將用戶名,帳號和金額在同一行打印出來,如下: 張三|000001|10 張三|000001|20 李四|000002|30 李四|000002|15 執行如下代碼 #awk -F \| 'NR==FNR{a[$2]=$0;next}{print a[$1]"|"$2}' account cdr
注釋:
由NR=FNR為真時,判斷當前讀入的是第一個文件account,然后使用{a[$2]=$0;next}循環將account文件的每行記錄都存入數組a,並使用$2第2個字段作為下標引用.
由NR=FNR為假時,判斷當前讀入了第二個文件cdr,然后跳過{a[$2]=$0;next},對第二個文件cdr的每一行都無條件執行{print a[$1]"|"$2},此時變量$1為第二個文件的第一個字段,與讀入第一個文件時,采用第一個文件第二個字段$2為數組下標相同.因此可以在此使用a[$1]引用數組。