什么是大數據
大數據,官方定義是指那些數據量特別大、數據類別特別復雜的數據集,這種數據集無法用傳統的數據庫進行存儲,管理和處理。
大數據的主要特點為:
-
數據量大(Volume)
-
數據類別復雜(Variety)
-
數據處理速度快(Velocity)
-
和數據真實性高(Veracity)
合起來被稱為4V。
還有的將大數據特點定義為6V模型,即增加了Valence(連接)、Value(價值)2V。
大數據常見概念分類
大數據相關的概念大家都聽過不少:HDFS、MapReduce、Spark、Storm、Spark Streaming、Hive、Hbase、Flume、Logstash、Kafka、Flink、Druid、ES等等。
是否感覺眼花繚亂?
下面我們將這些常見的概念進行分組。
同一組的框架(工具)可以完成相同的工作,但各自使用的場景有所差異。
01
計算框架
離線計算:Hadoop MapReduce、Spark
實時計算:Storm、Spark Streaming、Flink
02
存儲框架
文件存儲:Hadoop HDFS、Tachyon、KFS
NOSQL數據庫:HBase、MongoDB、Redis
全文檢索:ES、Solr
03
資源管理
YARN、Mesos
04
日志收集
Flume、Logstash
05
消息系統
Kafka、StormMQ、ZeroMQ、RabbitMQ
06
查詢分析
Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid