mapreduce的基本思想


1、什么是mapreduce

mapreduce是hadoop自帶的分布式計算框架。

2、mapreduce的基本思想

2.1、能夠解決什么問題
假設一個場景:一個電商系統,統計某個手機號的用戶的上行和下行流量。

如果通過一個節點的計算機,對各個datanode上的文件進行掃描,將結果統計到一個hashmap中,這樣的
方式存在受網絡IO限制、執行速度慢、耗時、單台計算機存儲容量瓶頸等問題。

2.2、解決方法
既然挪動數據到一台計算機進行統計走不通,那么可以考慮在各個節點都運行mapreduce的統計程序,首
先對每個節點進行map操作(單獨統計),然后將map進行reduce(數據匯總),這里map階段比較容易且
運行速度快,而red,這里這里暫時不做研究。

 

2.3、基本思想


3、mapreduce、storm、spark三者的關系

這三者都是分布式計算框架,都可用於hadoop的分布式計算。但三者之間有明顯的差異。具體如下:

mapreduce是離線批處理的計算,storm、spark做實時計算。storm是完全的實時,不間斷,而spark還是
有延遲的。
mapreduce是通過磁盤處理數據的,spark是通過內存處理數據的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM