主流大數據技術


  主流的大數據技術可以分為兩類:一類是面向非實時批處理業務場景,着重於處理傳統數據處理技術在有限的時空環境里無法勝任的TB級、PB級海量數據存儲、加工、分析、應用等。比較主流的支撐技術有:HDFS、MapReduce、Hive等。另一類是面向實時處理業務場景,比較主流的支撐技術為HBase、Kafka、Storm等。

(1)HDFS

  HDFS是Hadoop的核心子項目,是整個Hadoop平台數據存儲與訪問的基礎,在此之上,承載其他如MapReduce、Hbase等子項目的運轉。他是易於使用和管理的分布式文件系統。

  HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。HDFS放寬了一部分POSIX約束,來實現流式讀取文件系統數據的目的。

(2)MapReduce

  MapReduce是一個軟件架構,在數以千計的普通硬件構成的集群中以平行計算的方式處理海量數據,該計算框架具有很高的穩定性和容錯能力。MapReduce對 負責(?復雜)邏輯進行高度歸約,抽象為Mapper和Reducer類,復雜邏輯通過理解,轉化為符合MapReduce函數處理的模式。

  MapReduce job會划分輸入數據集為獨立的計算塊,這些分塊被map任務以完全並行、獨立的模式處理。MapReduce框架對maps的輸出進行排序,排序后,數據作為reduce任務的輸入數據。job的input和output數據都存儲在HDFS文件系統中。計算框架管理作業調度、監控作業、重新執行失敗任務。

(3)YARN

  Apache Hadoop YARN(Yet Another Resource Negotiator,另一種資源協調者)是從Hadoop 0.23進化來的一種新的資源管理和應用調度框架。基於YARN,可以運行多種類型的應用程序,例如MapReduce、Spark、Storm等。YARN不再具體管理應用,資源管理和應用管理是兩個低耦合的模塊。

  YARN從某種意義上來說,是一個雲操作系統(Cloud OS)。基於該操作系統之上,程序員可以開發多種應用程序,例如批處理MapReduce程序、Spark程序以及流式作業Storm程序等。這些應用,可以同時利用Hadoop集群的數據資源和計算資源。

(4)HBase  

  HBase是Hadoop平台中重要的非關系型數據庫,它通過線性可擴展部署,可以支撐PB級數據存儲與處理能力。

  作為非關系型數據庫,HBase適合於非結構化數據存儲,它的存儲模式是基於列的。

(5)Hive

  Hive是Apache基金會下面的開源框架,是基於Hadoop的數據倉庫工具,它可以把結構化的數據文件映射為一張數據倉庫表,並提供簡單的SQL(Structured Query Language)查詢功能,后台將SQL語句轉換為MapReduce任務來運行。
  使用Hive,可以滿足一些不懂MapReduce但懂SQL的數據庫管理員的需求,讓他們能夠平滑地使用大數據分析平台。

(6)Kafka
  Apache Kafka是分布式“發布-訂閱”消息系統,最初,它由LinkedIn公司開發,而后成為Apache項目。Kafka是一種快速、可擴展的、設計時內在地就是分布式的、分區的和可復制的提交日志服務。
  Kafka是一個分布式系統,易於向外擴展,可為發布和訂閱提供高吞吐量,並且支持多訂閱者,當失敗時,能自動平衡消費者;Kafka可將消息持久化存儲,既可面向非實時業務,也可以面向實時業務。

(7)Storm

  Storm是一個免費開源、分布式、高容錯的實時計算系統。它能夠處理持續不斷的流計算任務,目前,比較多地被應用到實時分析、在線機器學習、ETL(將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。)等領域。

 

大數據職業方向

(1)大數據平台架構與研發

(2)大數據平台應用開發

(3)大數據平台集成和運維

(4)大數據平台數據分析與應用

(5)大數據技術培訓與推廣

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM