大數據技術棧,主要有哪些


往大數據方向發展需要學哪些技術?網上一搜真是指不勝屈。對於小白來說,實在是一頭霧水,到底哪些是當下流行的?哪些是必須要先學會的?流行?主次搞不清。為了解決這些疑惑,羚羊專門花了些時間,  挨個技術去研究對比歸類,大概總結出以下的技術點:

文件存儲: Hadoop HDFS、GFS、KFS、Tachyon
離線計算: Hadoop MapReduce、Spark
流式、實時計算:flink、Storm、JStorm、Spark Structured Streaming、Heron、Spark Streaming
存儲格式:kudu、ORC、Apache Parquet、CarbonData
數據庫: HBase、Redis、MongoDB、Couchbase、LevelDB、Apache Cassandra、Ignite、TiDB
資源管理: YARN、Mesos
日志收集: Flume、Scribe、Logstash、FileBeat
消息系統: Kafka、StormMQ、ZeroMQ、RabbitMQ、Confluent Platform
在線、離線查詢搜索分析: Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid、ClickHouse、Elasticsearch
數據可視化查詢分析工具:Apache Zeppelin、Kibana
分布式協調服務:Zookeeper
集群管理與監控:Ambari、Ganglia、Nagios、Cloudera Manager
數據同步: Sqoop、DataX、Cannal、Maxwell、Debezium、DataBus
任務調度: Azkaban、Oozie
數據安全:Apache Eagle
機器學習、數據挖掘:Spark MLLib、Mahout

 下圖是羚羊根據當下流行的大數據技術點,結合之前的項目經驗,基於HDFS文件系統搭建了一個基本的、通用的完整大數據平台技術架構。一切的技術都是來源於不同的需求場景,所以根據不同的產品需求搭建出來的技術架構也會有差異。

大數據架構

【版權聲明】

本文版權歸作者(深圳伊人網網絡有限公司)和博客園共有,歡迎轉載,但未經作者同意必須在文章頁面給出原文鏈接,否則保留追究法律責任的權利。如您有任何商業合作或者授權方面的協商,請給我留言:siqing0822@163.com


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM