hadoop介紹概述


一、大數據
大數據包括巨大規模( Volume)、超高速度(Velocity)、類型可擴展(Variety)的數據,即3V,大數據包括三種類型的數據:
1)結構化數據:關系型數據
2)半結構化數據:XML數據
3)非結構化數據:Word文檔、PDF文檔、文本、媒體日志
 
二、hadoop
hadoop是大數據的解決方案,是Apache下一個開源子項目,用Java實現的,是一種分布式系統基礎架構。
hadoop的核心:
1)海量數據存儲(HDFS)
2)海量數據分析(MapReduce)
3)資源管理調度(YARN)
hadoop特點:
1)擴容能力(Scalable):能可靠地(reliably)存儲和處理千兆字節(PB)數據。
2)成本低(Economical):可以通過普通機器組成的服務器群來分發以及處理數據。這些服務器群總計可達數千個節點。
3)高效率(Efficient):通過分發數據,hadoop可以在數據所在的節點上並行地(parallel)處理它們,這使得處理非常的快速。
4)可靠性(Reliable):hadoop能自動地維護數據的多份副本,並且在任務失敗后能自動地重新部署(redeploy)計算任務。
 
三、hadoop生態
 
1、HDFS(分布式文件系統)
特點:良好的擴展性,高容錯性,適合PB級以上數據存儲
應用場景:海量數據可靠存儲、數據歸檔
2、Yarn(資源管理系統)
Yarn是Hadoop2.0新增的系統,負責集群的資源管理和調度,使得多種計算框架可以運行在一個集群中。
3、MapReduce(分布式計算框架)
4、Hive(基於MR的數據倉庫)
Hive定義了一種類似SQL查詢語言的HiveQL查詢語言,除了不支持更新、索引和實物,幾乎SQL的其他特征都能支持。
應用場景:日志分析、對維度數據分析、海量結構化數據離線分析
5、Pig(數據倉庫)
Pig是構建在Hadoop之上的數據倉庫,定義了一種類似於SQL的數據流語言–Pig Latin,Pig Latin可以完成排序、過濾、求和、關聯等操作,可以支持自定義函數。
6、Mahout(數據挖掘庫)
Mahout是基於Hadoop的 機器學習和數據挖掘的分布式計算框架。它實現了三大算法:推薦、聚類、分類。
7、HBase(分布式數據庫)
特點:高可靠性、高性能、面列項、良好的擴展性
8、Zookeeper(分布式協作服務)
Zookeeper解決分布式環境下數據管理問題:統一命名、狀態同步、集群管理、配置同步
9、Sqoop(數據同步工具)
Sqoop是連接Hadoop與傳統 數據庫之間的橋梁,它支持多種數據庫,包括MySQL、DB2等;插拔式,用戶可以根據需要支持新的數據庫。
10、Flume(日志收集工具)
特點:分布式、高可靠性、高容錯性、易於定制與擴展
11、Oozie(作業流調度系統)
 
四、hadoop版本介紹
Hadoop 1.0:第一代Hadoop,由分布式存儲系統HDFS和分布式計算框架MapReduce組成,其中,HDFS由一個NameNode和多個DataNode組成,MapReduce由一個JobTracker和多個TaskTracker組成,對應Hadoop版本為Hadoop 1.x和0.21.X,0.22.x。
Hadoop 2.0:第二代Hadoop,為克服Hadoop 1.0中HDFS和MapReduce存在的各種問題而提出的。提出了全新的資源管理框架YARN(Yet Another Resource Negotiator),它將JobTracker中的資源管理和作業控制功能分開,分別由組件ResourceManager和NodeManager實現,其中,ResourceManager負責所有應用程序的資源分配,而NodeManager僅負責管理一個應用程序。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM