這一兩年Spark技術很火,自己也湊熱鬧,反復的試驗、研究,有痛苦萬分也有欣喜若狂,抽空把這些整理成文章共享給大家。這個系列基本上圍繞了Spark生態圈進行介紹,從Spark的簡介、編譯、部署,再到編程模型、運行架構,最后介紹其組件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章內容的整理一般是先介紹原理,隨后是實戰例子,由於面向的是入門讀者,在實戰中多截圖,還請諒解。為了大家實驗方便,在這里把實驗相關的測試數據和安裝包放在百度盤提供 鏈接: 鏈接: https://pan.baidu.com/s/1LP6PKGzIWQzF8e-dTklxkg 提取碼: it28
本系列博客在博客園和CSDN首發,地址為:
博客園 http://www.cnblogs.com/shishanyuan
CSDN http://blog.csdn.net/yirenboy
以下為該系列文章列表:
2.Spark編譯與部署(中)--Hadoop編譯安裝 下載
3.Spark編程模型(上)--編程模型及SparkShell實戰 下載
7.Spark Streaming(上)--實時流計算Spark Streaming原理介紹 下載
7.Spark Streaming(下)--實時流計算Spark Streaming實戰 下載
8.Spark MLlib(上)--機器學習及SparkMLlib簡介 下載
8.Spark MLlib(下)--機器學習庫SparkMLlib實戰 下載