MapReduce實現單詞統計


 開發工具:IDEA

mapreduce實現思路:

Map階段:

a) HDFS的源數據文件中逐行讀取數據

b) 將每一行數據切分出單詞

c) 為每一個單詞構造一個鍵值對(單詞,1)

d) 將鍵值對發送給reduce

 

Reduce階段

a) 接收map階段輸出的單詞鍵值對

b) 將相同單詞的鍵值對匯聚成一組

c) 對每一組,遍歷組中的所有“值”,累加求和,即得到每一個單詞的總次數

d) (單詞,總次數)輸出到HDFS的文件中

代碼實現:

porm.xml導入依賴:

 

導入包:

Map端:

Reduce端:

主函數:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM