開發工具:IDEA
mapreduce實現思路:
Map階段:
a) 從HDFS的源數據文件中逐行讀取數據
b) 將每一行數據切分出單詞
c) 為每一個單詞構造一個鍵值對(單詞,1)
d) 將鍵值對發送給reduce
Reduce階段:
a) 接收map階段輸出的單詞鍵值對
b) 將相同單詞的鍵值對匯聚成一組
c) 對每一組,遍歷組中的所有“值”,累加求和,即得到每一個單詞的總次數
d) 將(單詞,總次數)輸出到HDFS的文件中
代碼實現:
porm.xml導入依賴:
導入包:
Map端:
Reduce端:
主函數: