Linux--uniq 命令(檢查和處理重復行的數據)


      文本中的重復行,基本上不是我們所要的,所以就要去除掉。linux下有其他命令可以去除重復行,但是我覺得uniq還是比較方便的一個。

    使用uniq的時候要注意以下二點
1、對文本操作時,它一般會和sort命令進行組合使用,因為uniq 不會檢查重復的行,除非它們是相鄰的行。如果您想先對輸入排序,使用sort -u。
2、對文本操作時,若域中為先空字符(通常包括空格以及制表符),然后非空字符,域中字符前的空字符將被跳過。

語法
uniq [-cdu][-f<欄位>][-s<字符位置>][-w<字符位置>][--help][--version][輸入文件][輸出文件]
參數:
-c, --count 在每行前顯示該行重復出現的次數。
-d, --repeated 僅顯示重復出現的行列。
-D, --all-repeated 只輸出重復的行,不過有幾行輸出幾行
-f, --skip-fields=N 忽略比較指定的欄位。 -f 忽略的段數,-f 1 忽略第一段
-i, --ignore-case 不區分大小寫
-s, --skip-chars=N 忽略比較指定的字符,忽略后面多少個字符
-u, --unique 僅顯示出一次的行列。(去除重復的后,全部顯示出來,根mysql的distinct功能上有點像)
-w, --check-chars=N 指定要比較的字符。對每行第N 個字符以后的內容不作對照
--help 顯示幫助。
--version 顯示版本信息。
[輸入文件] 指定已排序好的文本文件。如果不指定此項,則從標准讀取數據;
[輸出文件] 指定輸出的文件。如果不指定此選項,則將內容顯示到標准輸出設備(顯示終端)。

 

實例

文件testfile中第 2、3、5、6、7、9行為重復的行,使用 uniq 命令刪除重復的行,可使用以下命令:
uniq testfile

testfile中的原有內容為:
$ cat testfile     #原有內容

test 30

test 30

test 30
Hello 95
Hello 95
Hello 95
Hello 95
Linux 85
Linux 85

 

使用uniq 命令刪除重復的行后,有如下輸出結果:
$ uniq  testfile    #刪除重復行后的內容
test 30
Hello 95
Linux 85

 

檢查文件並刪除文件中重復出現的行,並在行首顯示該行重復出現的次數。使用如下命令:
uniq -c testfile
結果輸出如下:
$ uniq  -c   testfile   #刪除重復行后的內容
3 test 30 #前面的數字的意義為該行共出現了3次
4 Hello 95 #前面的數字的意義為該行共出現了4次
2 Linux 85 #前面的數字的意義為該行共出現了2次

 

當重復的行並不相鄰時,uniq 命令是不起作用的,即若文件內容為以下時,uniq 命令不起作用:

$ cat  testfile1    # 原有內容

test 30
Hello 95
Linux 85

test 30
Hello 95
Linux 85

test 30
Hello 95
Linux 85

這時我們就可以使用 sort:
$ sort  testfile1 | uniq

Hello 95
Linux 85

test 30

 

統計各行在文件中出現的次數:
$ sort  testfile1 | uniq  -c

3 Hello 95
3 Linux 85
3 test 30

 

在文件中找出重復的行:
$ sort testfile1 | uniq -d

Hello 95
Linux 85

test 30


用uniq來處理文件重復數據--交集,差集
經常有這樣的需求:兩個文本文件要求取重復的行或只取不重復的,簡單的情況下用sort和uniq來處理是非常方便的:
利用現存兩個文件,生成一個新的文件。

1、取出兩個文件的並集(重復的行只保留一份)
cat file1 file2 | sort | uniq

2、取出兩個文件的交集(只留下同時存在於兩個文件中的文件,重復行)
cat file1 file2 | sort | uniq -d

3、刪除交集,留下其他的行(非重復行)
cat file1 file2 | sort | uniq -u


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM