1.先写一个AWK处理多个文件的例子
第一个文件打印第一个字段,第二个文件打印第二字段
方法一:
#!/bin/bash set -x file1=$(pwd)"/kk1" file2=$(pwd)"/kk2" awk -F' ' '{ if(FILENAME==ARGV[1]){ print $1; }else{ print $2; } }' $file1 $file2
方法二:
#!/bin/bash set -x file1=$(pwd)"/kk1" file2=$(pwd)"/kk2" :<<EOF awk -F' ' '{ if(FILENAME==ARGV[1]){ print $1; }else{ print $2; } }' $file1 $file2 EOF awk -F' ' '{ if(NR==FNR){ print $1; }else{ print $2; } }' $file1 $file2
2.AWK的重要常量
ARGC 命令行参数个数 ARGV 命令行参数排列 FILENAME awk浏览的文件名 FNR 浏览文件的行数(多个文件时,其值会置1,从新开始计数) NR 已读的记录数(多个文件时,其值会连续加1,不会置1) NF 浏览记录的域的个数(每列的总行数) FS 设置输入域分隔符,等价于命令行 -F选项 OFS 输出域分隔符 ORS 输出记录分隔符 RS 控制输入记录分隔符 ENVIRON 支持队列中系统环境变量的使用 $0变量是指整条记录。$1表示当前行的第一个域,$2表示当前行的第二个域,......以此类推。 $NF是number finally,表示最后一列的信息,跟变量NF是有区别的,变量NF统计的是每行列的总数
指定输出格式符
1 #!/bin/bash 2 set -x 3 file1=$(pwd)"/kk1" 4 file2=$(pwd)"/kk2" 5 6 awk -F' 'BEGIN'{ 7 OFS="\t" 8 } 9 { 10 if(NR==FNR){ 11 print $1; 12 }else{ 13 print $2; 14 } 15 print NR,FNR,NF; 16 }' $file1 $file2
#!/bin/bash set -x file1=$1 file2=$2 cat $file1 awk -F ' ' 'BEGIN{ OFS="\t"; } { if(FILENAME==ARGV[1]){ arr[$1]=$1; } else{ if($1 in arr){ gsub(/\$\$/,",",$2); len=split($2,brr,",") for(i=0;i<=len;i++) { print brr[i]; } print $1,$2; } } }END{ #for(e in arr){ # print e; #} }' $file1 $file2
ps .awk单引号里面的内容需要用双引号
3.AWK内置的常见的函数
函数 | 说明 |
gsub( Ere, Repl, [ In ] ) | 除了正则表达式所有具体值被替代这点,它和 sub 函数完全一样地执行,。 |
sub( Ere, Repl, [ In ] ) | 用 Repl 参数指定的字符串替换 In 参数指定的字符串中的由 Ere 参数指定的扩展正则表达式的第一个具体值。sub 函数返回替换的数量。出现在 Repl 参数指定的字符串中的 &(和符号)由 In 参数指定的与 Ere 参数的指定的扩展正则表达式匹配的字符串替换。如果未指定 In 参数,缺省值是整个记录($0 记录变量)。 |
index( String1, String2 ) | 在由 String1 参数指定的字符串(其中有出现 String2 指定的参数)中,返回位置,从 1 开始编号。如果 String2 参数不在 String1 参数中出现,则返回 0(零)。 |
length [(String)] | 返回 String 参数指定的字符串的长度(字符形式)。如果未给出 String 参数,则返回整个记录的长度($0 记录变量)。 |
blength [(String)] | 返回 String 参数指定的字符串的长度(以字节为单位)。如果未给出 String 参数,则返回整个记录的长度($0 记录变量)。 |
substr( String, M, [ N ] ) | 返回具有 N 参数指定的字符数量子串。子串从 String 参数指定的字符串取得,其字符以 M 参数指定的位置开始。M 参数指定为将 String 参数中的第一个字符作为编号 1。如果未指定 N 参数,则子串的长度将是 M 参数指定的位置到 String 参数的末尾 的长度。 |
match( String, Ere ) | 在 String 参数指定的字符串(Ere 参数指定的扩展正则表达式出现在其中)中返回位置(字符形式),从 1 开始编号,或如果 Ere 参数不出现,则返回 0(零)。RSTART 特殊变量设置为返回值。RLENGTH 特殊变量设置为匹配的字符串的长度,或如果未找到任何匹配,则设置为 -1(负一)。 |
split( String, A, [Ere] ) | 将 String 参数指定的参数分割为数组元素 A[1], A[2], . . ., A[n],并返回 n 变量的值。此分隔可以通过 Ere 参数指定的扩展正则表达式进行,或用当前字段分隔符(FS 特殊变量)来进行(如果没有给出 Ere 参数)。除非上下文指明特定的元素还应具有一个数字值,否则 A 数组中的元素用字符串值来创建。 |
tolower( String ) | 返回 String 参数指定的字符串,字符串中每个大写字符将更改为小写。大写和小写的映射由当前语言环境的 LC_CTYPE 范畴定义。 |
toupper( String ) | 返回 String 参数指定的字符串,字符串中每个小写字符将更改为大写。大写和小写的映射由当前语言环境的 LC_CTYPE 范畴定义。 |
sprintf(Format, Expr, Expr, . . . ) | 根据 Format 参数指定的 printf 子例程格式字符串来格式化 Expr 参数指定的表达式并返回最后生成的字符串。 |
3.1 match函数
awk 'BEGIN{str="tel:136016641842;name='sun';age=23";match(str,"age=([0-9]+)",phone);print phone[1];}'
3.2 split 将字符串分割成数组
awk 'BEGIN{k=split("100,200,400",a,",");print k;for(i=1;i<=k;i++){print a[i];}}'
3.3 gsub 字符串替换(正则表达式所有具体值被替代这点)
gsub(regular expression, subsitution string, target string);简称 gsub(r,s,t)
awk 'BEGIN{str="hello134world344";n=gsub(/[0-9]+/,"?",str);print n;print str}'
2
hello?world?
3.4 sub 正则表达式匹配的第一个值被替换
awk 'BEGIN{str="hello134world344";n=sub(/[0-9]+/,"?",str);print n;print str}'
1
hello?world344