1.CDH概述
CDH(Cloudra's Distribution Apache Of Hadoop)是Apache Hadoop和相關項目的最完整,經過測試和最流行的發行版。CDH提供Hadoop的核心要素–可擴展的存儲和分布式計算–以及基於Web的用戶界面和重要的企業功能。CDH是Apache許可的開源軟件,並且是唯一提供統一批處理,交互式SQL和交互式搜索以及基於角色的訪問控制的Hadoop解決方案。 一句話概括CDH就是集成多種技術的一個框架。
CDH提供
- 靈活性-存儲任何類型的數據並使用各種不同的計算框架進行處理,包括批處理,交互式SQL,自由文本搜索,機器學習和統計計算。
- 集成-在可與廣泛的硬件和軟件解決方案一起使用的完整Hadoop平台上快速啟動並運行。
- 安全性-處理和控制敏感數據。
- 可擴展性-啟用廣泛的應用程序並進行擴展,並擴展它們以滿足您的要求。
- 高可用性-自信地執行關鍵任務業務任務。
- 兼容性-利用您現有的IT基礎架構和投資。
Hadoop生態構成
- HDFS:分布式文件系統
- ZKFC:為實現NameNode高可用,在NameNode和Zookeeper之間傳遞信息,選舉主節點工具。
- NameNode:存儲文件元數據
- DateNode:存儲具體數據
- JournalNode:同步主NameNode節點數據到從節點NameNode
- MapReduce:開源的分布式批處理計算框架
- Spark:分布式基於內存的批處理框架
- Zookeeper:分布式協調管理
- Yarn:調度資源管理器
- HBase:基於HDFS的NoSql列式數據庫
- Hive:將SQL轉換為MapReduce進行計算
- Hue:是CDH的一個UI框架
- Impala:是Cloudra公司開發的一個查詢系統,類似於Hive,可以通過SQL執行任務,但是它不基於MapReduce算法,而是直接執行分布式計算,這樣就提高了效率。
- oozie:是一個工作流調度引擎,負責將多個任務組合在一起按序執行。
- kudu:Apache Kudu是轉為hadoop平台開發的列式存儲管理器。和impala結合使用,可以進行增刪改查。
- Sqoop:將hadoop和關系型數據庫互相轉移的工具。
- Flume:采集日志
- 還有一些其它的
CDH結構圖
2.Cloudra Manager概述
Cloudra Manager簡稱CM,它是一個web操作平台,可以借助安裝CDH然后安裝多種Hadoop框架。
CloudraManager技術構成
Clients:客戶端,通過web頁面和ClouderaManager和服務器進行交互。
API:通過API和ClouderaManagement和服務器進行交互
Cloudera Repository:存儲分發安裝包
Management Server:進行監控和預警
Database:存儲預警信息和配置信息。
Agent:分布在多台服務器,負責配置,啟動和停止進程。監控主機。
結構圖如下: