shell命令之AWK处理多个文件


1.先写一个AWK处理多个文件的例子

第一个文件打印第一个字段,第二个文件打印第二字段

方法一:

#!/bin/bash
set -x
file1=$(pwd)"/kk1"
file2=$(pwd)"/kk2"
awk -F' ' '{
        if(FILENAME==ARGV[1]){
           print $1;
        }else{
          print $2;
        }
}' $file1 $file2

方法二:

#!/bin/bash
set -x
file1=$(pwd)"/kk1"
file2=$(pwd)"/kk2"
:<<EOF
awk -F' ' '{
        if(FILENAME==ARGV[1]){
           print $1;
        }else{
          print $2;
        }
}' $file1 $file2
EOF
awk -F' ' '{
        if(NR==FNR){
           print $1;
        }else{
          print $2;
        }
}' $file1 $file2

2.AWK的重要常量

ARGC               命令行参数个数
ARGV               命令行参数排列
FILENAME           awk浏览的文件名

FNR                浏览文件的行数(多个文件时,其值会置1,从新开始计数)
NR                 已读的记录数(多个文件时,其值会连续加1,不会置1)
NF                 浏览记录的域的个数(每列的总行数)

FS                 设置输入域分隔符,等价于命令行 -F选项
OFS                输出域分隔符

ORS                输出记录分隔符
RS                 控制输入记录分隔符
ENVIRON            支持队列中系统环境变量的使用
$0变量是指整条记录。$1表示当前行的第一个域,$2表示当前行的第二个域,......以此类推。

$NF是number finally,表示最后一列的信息,跟变量NF是有区别的,变量NF统计的是每行列的总数

指定输出格式符

 1 #!/bin/bash
 2 set -x
 3 file1=$(pwd)"/kk1"
 4 file2=$(pwd)"/kk2"
 5 
 6 awk -F' 'BEGIN'{
 7             OFS="\t"
 8         }
 9         {
10         if(NR==FNR){
11            print $1;
12         }else{
13           print $2;
14         }
15         print NR,FNR,NF;
16 }' $file1 $file2

 

#!/bin/bash

set -x
file1=$1
file2=$2
cat $file1
awk -F ' ' 'BEGIN{
                OFS="\t";
        }
{
        if(FILENAME==ARGV[1]){
            arr[$1]=$1;
        }
        else{
           if($1 in arr){
              gsub(/\$\$/,",",$2);
              len=split($2,brr,",")
              for(i=0;i<=len;i++)
                {
                   print brr[i];
                }
              print $1,$2;      
           }
        }

}END{
    #for(e in arr){
    #   print e;
    #}
}' $file1 $file2

 

ps .awk单引号里面的内容需要用双引号

3.AWK内置的常见的函数

函数 说明
gsub( Ere, Repl, [ In ] ) 除了正则表达式所有具体值被替代这点,它和 sub 函数完全一样地执行,。
sub( Ere, Repl, [ In ] ) 用 Repl 参数指定的字符串替换 In 参数指定的字符串中的由 Ere 参数指定的扩展正则表达式的第一个具体值。sub 函数返回替换的数量。出现在 Repl 参数指定的字符串中的 &(和符号)由 In 参数指定的与 Ere 参数的指定的扩展正则表达式匹配的字符串替换。如果未指定 In 参数,缺省值是整个记录($0 记录变量)。
index( String1, String2 ) 在由 String1 参数指定的字符串(其中有出现 String2 指定的参数)中,返回位置,从 1 开始编号。如果 String2 参数不在 String1 参数中出现,则返回 0(零)。
length [(String)] 返回 String 参数指定的字符串的长度(字符形式)。如果未给出 String 参数,则返回整个记录的长度($0 记录变量)。
blength [(String)] 返回 String 参数指定的字符串的长度(以字节为单位)。如果未给出 String 参数,则返回整个记录的长度($0 记录变量)。
substr( String, M, [ N ] ) 返回具有 N 参数指定的字符数量子串。子串从 String 参数指定的字符串取得,其字符以 M 参数指定的位置开始。M 参数指定为将 String 参数中的第一个字符作为编号 1。如果未指定 N 参数,则子串的长度将是 M 参数指定的位置到 String 参数的末尾 的长度。
match( String, Ere ) 在 String 参数指定的字符串(Ere 参数指定的扩展正则表达式出现在其中)中返回位置(字符形式),从 1 开始编号,或如果 Ere 参数不出现,则返回 0(零)。RSTART 特殊变量设置为返回值。RLENGTH 特殊变量设置为匹配的字符串的长度,或如果未找到任何匹配,则设置为 -1(负一)。
split( String, A, [Ere] ) 将 String 参数指定的参数分割为数组元素 A[1], A[2], . . ., A[n],并返回 n 变量的值。此分隔可以通过 Ere 参数指定的扩展正则表达式进行,或用当前字段分隔符(FS 特殊变量)来进行(如果没有给出 Ere 参数)。除非上下文指明特定的元素还应具有一个数字值,否则 A 数组中的元素用字符串值来创建。
tolower( String ) 返回 String 参数指定的字符串,字符串中每个大写字符将更改为小写。大写和小写的映射由当前语言环境的 LC_CTYPE 范畴定义。
toupper( String ) 返回 String 参数指定的字符串,字符串中每个小写字符将更改为大写。大写和小写的映射由当前语言环境的 LC_CTYPE 范畴定义。
sprintf(Format, Expr, Expr, . . . ) 根据 Format 参数指定的 printf 子例程格式字符串来格式化 Expr 参数指定的表达式并返回最后生成的字符串。

 3.1 match函数

 awk 'BEGIN{str="tel:136016641842;name='sun';age=23";match(str,"age=([0-9]+)",phone);print phone[1];}'

3.2 split 将字符串分割成数组

awk 'BEGIN{k=split("100,200,400",a,",");print k;for(i=1;i<=k;i++){print a[i];}}'

3.3 gsub 字符串替换(正则表达式所有具体值被替代这点)

gsub(regular expression, subsitution string, target string);简称 gsub(r,s,t)

awk 'BEGIN{str="hello134world344";n=gsub(/[0-9]+/,"?",str);print n;print str}'
2
hello?world?

3.4 sub 正则表达式匹配的第一个值被替换

awk 'BEGIN{str="hello134world344";n=sub(/[0-9]+/,"?",str);print n;print str}'
1
hello?world344


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM