在大數據非常流行的今天,每個行業都在談論大數據,每個公司(互聯網公司,傳統企業,金融行業等)都在討論大數據。高層管理者利用大數據來進行決策;數據科學家利用大數據來進行業務創新;程序員利用大數據來完成項目或者產品。那么,作為大數據工程師需要掌握哪些知識呢?
其中Hadoop作為大數據處理的平台,憑借着出色的處理能力及大量的開源框架,越來越多地被大型公司采用,幾乎成為了大數據的代名詞。下面主要展示了Hadoop的生態圈。
每一個component都是一項技術,值得深入研究。基於一些性能的考慮,MapReduce逐漸地被Spark所取代。下面展示了Spark的生態系統。
參考資料:
HDFS;