Spark生態系統


在大數據非常流行的今天,每個行業都在談論大數據,每個公司(互聯網公司,傳統企業,金融行業等)都在討論大數據。高層管理者利用大數據來進行決策;數據科學家利用大數據來進行業務創新;程序員利用大數據來完成項目或者產品。那么,作為大數據工程師需要掌握哪些知識呢?

其中Hadoop作為大數據處理的平台,憑借着出色的處理能力及大量的開源框架,越來越多地被大型公司采用,幾乎成為了大數據的代名詞。下面主要展示了Hadoop的生態圈。

 

每一個component都是一項技術,值得深入研究。基於一些性能的考慮,MapReduce逐漸地被Spark所取代。下面展示了Spark的生態系統。

參考資料:

大數據技術棧

Spark官網

Spark修煉之道

從入門到高深,Spark綜合帖

RDD:基於內存的集群計算容錯抽象

HDFS

Spark生態和架構

Spark-core架構及工作機制

Spark book


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM