大數據分析處理框架——離線分析（hive，pig，spark）、近似實時分析（Impala）和實時分析（storm、spark streaming）

本文轉載自查看原文 2017-01-26 16:37 5230 數據分析

大數據分析處理架構圖

數據源： 除該種方法之外，還可以分為離線數據、近似實時數據和實時數據。按照圖中的分類其實就是說明了數據存儲的結構，而特別要說的是流數據，它的核心就是數據的連續性和快速分析性；

計算層： 內存計算中的Spark是UC Berkeley的最新作品，思路是利用集群中的所有內存將要處理的數據加載其中，省掉很多I/O開銷和硬盤拖累，從而加快計算。而Impala思想來源於Google Dremel，充分利用分布式的集群和高效存儲方式來加快大數據集上的查詢速度，這也就是我上面說到的近似實時查詢；底層的文件系統當然是HDFS獨大，也就是Hadoop的底層存儲，現在大數據的技術除了微軟系的意外，基本都是HDFS作為底層的存儲技術。上層的YARN就是MapReduce的第二版，和在一起就是Hadoop最新版本。基於之上的應用有Hive，Pig Latin，這兩個是利用了SQL的思想來查詢Hadoop上的數據。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 詳細解讀大數據分析引擎Pig&PigLatin語句基於Pycharm的Spark大數據分析 Apache Spark大數據分析入門（一）大數據Spark實時處理--實時流處理1（Spark Streaming API）大數據分析處理必備工具大數據分析與挖掘關於“華為”的大數據分析大數據分析案例 python 大數據分析大數據分析步驟