大數據分析處理架構圖
數據源: 除該種方法之外,還可以分為離線數據、近似實時數據和實時數據。按照圖中的分類其實就是說明了數據存儲的結構,而特別要說的是流數據,它的核心就是數據的連續性和快速分析性;
計算層: 內存計算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有內存將要處理的數據加載其中,省掉很多I/O開銷和硬盤拖累,從而加快計算。而Impala思想來源於Google Dremel,充分利用分布式的集群和高效存儲方式來加快大數據集上的查詢速度,這也就是我上面說到的近似實時查詢;底層的文件系統當然是HDFS獨大,也就是Hadoop的底層存儲,現在大數據的技術除了微軟系的意外,基本都是HDFS作為底層的存儲技術。上層的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基於之上的應用有Hive,Pig Latin,這兩個是利用了SQL的思想來查詢Hadoop上的數據。