Spark on Yarn 學習(一)

本文轉載自查看原文 2013-12-13 10:39 12956 讀書筆記/ Spark on yarn/ 雲后端開發系列/ 數據挖掘/ 雲計算

最近看到明風的關於數據挖掘平台下實用Spark和Yarn來做推薦的PPT,感覺很贊,現在基於大數據和快速計算方面技術的發展很快,隨着Apache基金會上發布的一個個項目,感覺真的新技術將會不斷出現在大家的面前.

作為技術發燒友,作為一個看客,來圍觀下,不過從PPT中列出來的技術來看,未來的發展趨勢還是說是有的,而且還是很有發展前景的. 現在Spark和Yarn也就發布2年多的時間,隨着社區力量的跟上,不斷的將之前的項目都放到一個更好的資源架構的整合上來實現.特別是放到內存上來實現,在速度和效率上還是確實有區別於之前的其他技術.所以作為巨頭之一的淘寶,就跟上的技術發展的趨勢了.但是作為小公司而言,沒有這樣的大規模的機器部署的情況下,如何用利用好這些技術呢?

下面是PPT中記錄的一些筆記和插圖.算是對整個架構有一個出不的了解,接下來有時間就努力的去嘗試下.

插上翅膀的大象基於Spark on Yarn的淘寶數據挖掘平台

為什么選擇Spark On Yarn Spark On Yarn的原理和框架淘寶在Spark On Yarn上做的工作基於Spark On Yarn的數據挖掘平台架構

案例性能

Hadoop在數據挖掘遇到的問題多次迭代
中介數據的序列化和反序列化
簡單的MR模式 vs 復雜的機器學習算法
OO編程 vs 函數式風格
圖計算能力

Why Spark
RDD
內存計算
快速迭代
DAG

Scala
FP編程
Actor編程
並發能力

Hadoop
MapReduce
HDFS訪問

Spark的生態圈 Shark(Hive),Streaming(Storm),Mllib(Mahout),Graphx(GraphLab)
Spark (MapReduce)
Local Standalone Mesos Yarn HDFS HBASE

Yarn版本0.23.7 目前淘寶部署了 5000 * 2 的架構

Spark On Yarn 的框架
Spark的生態圈