大數據概述(一)


什么是大數據

大數據,官方定義是指那些數據量特別大、數據類別特別復雜的數據集,這種數據集無法用傳統的數據庫進行存儲,管理和處理。

大數據的主要特點為:

  1. 數據量大(Volume)

  2. 數據類別復雜(Variety)

  3. 數據處理速度快(Velocity)

  4. 和數據真實性高(Veracity)

合起來被稱為4V。

還有的將大數據特點定義為6V模型,即增加了Valence(連接)、Value(價值)2V。

大數據常見概念分類

大數據相關的概念大家都聽過不少:HDFS、MapReduce、Spark、Storm、Spark Streaming、Hive、Hbase、Flume、Logstash、Kafka、Flink、Druid、ES等等。

是否感覺眼花繚亂?

下面我們將這些常見的概念進行分組。

同一組的框架(工具)可以完成相同的工作,但各自使用的場景有所差異。

01

計算框架

離線計算:Hadoop MapReduce、Spark

實時計算:Storm、Spark Streaming、Flink

02

存儲框架

文件存儲:Hadoop HDFS、Tachyon、KFS

NOSQL數據庫:HBase、MongoDB、Redis

全文檢索:ES、Solr

03

資源管理

YARN、Mesos

04

日志收集

Flume、Logstash

05

消息系統

Kafka、StormMQ、ZeroMQ、RabbitMQ

06

查詢分析

Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM