使用shell實現簡單的詞頻統計


需求:

統計如下中第二列單詞出現的次數:

1,huabingood,100
2,haha,200
3,huabingood,300
4,haha,100
5,haha,200

 

具體代碼:

cat a.txt | awk -F "," '{print $2}' | sort | uniq -c | sort -nrk 1

代碼解釋:

awk -F "," '{print $2}'    # 將數據按照逗號進行分割,並取出第二列的內容
sort  # 將取出的內容進行排序。因為uniq統計時,如果重復的數據不連續,就會被認為時兩個不同內容的行
uniq -c  # 統計重復行出現的次數
sort -nrk 1  # 按照第一列重復的次數,按照數字順序進行降序排列

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM