文本中的重復行,基本上不是我們所要的,所以就要去除掉。linux下有其他命令可以去除重復行,但是我覺得uniq還是比較方便的一個。
使用uniq的時候要注意以下二點
1、對文本操作時,它一般會和sort命令進行組合使用,因為uniq 不會檢查重復的行,除非它們是相鄰的行。如果您想先對輸入排序,使用sort -u。
2、對文本操作時,若域中為先空字符(通常包括空格以及制表符),然后非空字符,域中字符前的空字符將被跳過。
語法
uniq [-cdu][-f<欄位>][-s<字符位置>][-w<字符位置>][--help][--version][輸入文件][輸出文件]
參數:
-c, --count 在每行前顯示該行重復出現的次數。
-d, --repeated 僅顯示重復出現的行列。
-D, --all-repeated 只輸出重復的行,不過有幾行輸出幾行
-f, --skip-fields=N 忽略比較指定的欄位。 -f 忽略的段數,-f 1 忽略第一段
-i, --ignore-case 不區分大小寫
-s, --skip-chars=N 忽略比較指定的字符,忽略后面多少個字符
-u, --unique 僅顯示出一次的行列。(去除重復的后,全部顯示出來,根mysql的distinct功能上有點像)
-w, --check-chars=N 指定要比較的字符。對每行第N 個字符以后的內容不作對照
--help 顯示幫助。
--version 顯示版本信息。
[輸入文件] 指定已排序好的文本文件。如果不指定此項,則從標准讀取數據;
[輸出文件] 指定輸出的文件。如果不指定此選項,則將內容顯示到標准輸出設備(顯示終端)。
實例
文件testfile中第 2、3、5、6、7、9行為重復的行,使用 uniq 命令刪除重復的行,可使用以下命令:
uniq testfile
testfile中的原有內容為:
$ cat testfile #原有內容
test 30
test 30
test 30
Hello 95
Hello 95
Hello 95
Hello 95
Linux 85
Linux 85
使用uniq 命令刪除重復的行后,有如下輸出結果:
$ uniq testfile #刪除重復行后的內容
test 30
Hello 95
Linux 85
檢查文件並刪除文件中重復出現的行,並在行首顯示該行重復出現的次數。使用如下命令:
uniq -c testfile
結果輸出如下:
$ uniq -c testfile #刪除重復行后的內容
3 test 30 #前面的數字的意義為該行共出現了3次
4 Hello 95 #前面的數字的意義為該行共出現了4次
2 Linux 85 #前面的數字的意義為該行共出現了2次
當重復的行並不相鄰時,uniq 命令是不起作用的,即若文件內容為以下時,uniq 命令不起作用:
$ cat testfile1 # 原有內容
test 30
Hello 95
Linux 85
test 30
Hello 95
Linux 85
test 30
Hello 95
Linux 85
這時我們就可以使用 sort:
$ sort testfile1 | uniq
Hello 95
Linux 85
test 30
統計各行在文件中出現的次數:
$ sort testfile1 | uniq -c
3 Hello 95
3 Linux 85
3 test 30
在文件中找出重復的行:
$ sort testfile1 | uniq -d
Hello 95
Linux 85
test 30
用uniq來處理文件重復數據--交集,差集
經常有這樣的需求:兩個文本文件要求取重復的行或只取不重復的,簡單的情況下用sort和uniq來處理是非常方便的:
利用現存兩個文件,生成一個新的文件。
1、取出兩個文件的並集(重復的行只保留一份)
cat file1 file2 | sort | uniq
2、取出兩個文件的交集(只留下同時存在於兩個文件中的文件,重復行)
cat file1 file2 | sort | uniq -d
3、刪除交集,留下其他的行(非重復行)
cat file1 file2 | sort | uniq -u