spark和MR比較

本文轉載自查看原文 2018-07-30 15:21 1252 spark/ 大數據

MapReduce: 分布式的計算框架
缺點：執行速度慢
IO瓶頸 ==> 磁盤IO 網絡IO
shuffle機制：數據需要輸出到磁盤，而且每次shuffle都需要進行排序操作
框架的機制：
只有Map和Reduce兩個算子，對於比較復雜的任務，需要構建多個job來執行
當存在job依賴的時候，job之間的數據需要落盤(輸出到HDFS上)

Spark：基於內存的分布式計算框架==>是一個執行引擎
用RDD進行各種運算，有多種算子（具體可以參考源碼）
起源於加州大學伯克利分校的AMPLib實驗室
官網：http://spark.apache.org/
官方博客：https://databricks.com/blog

運行環境：

MR運行在YARN上，

spark

local：本地運行
standalone：使用Spark自帶的資源管理框架，運行spark的應用
yarn：將spark應用類似mr一樣，提交到yarn上運行
mesos：類似yarn的一種資源管理框架

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark為什么比hadoop的mr要快？ Spark和MR的區別 MR的shuffle和Spark的shuffle之間的區別 Mr與spark的shuffle過程詳解及對比 kylin的構建引擎從mr換成spark 談談Hadoop MapReduce和Spark MR實現一個 mr 作業跑的比較慢，如何來優化。 spark SQL和presto比較 Spark與MapReduce的比較 Hive on spark和Hive on mr在處理orc格式表格時數據不一致問題探究