官網介紹
CDH是Cloudera的100%開源平台發行版,包括Apache Hadoop,專為滿足企業需求而構建。CDH提供開箱即用的企業使用所需的一切。通過將Hadoop與十幾個其他關鍵的開源項目集成,Cloudera創建了一個功能先進的系統,可幫助您執行端到端的大數據工作流程。
簡單來說:CDH 是一個擁有集群自動化安裝、中心化管理、集群監控、報警功能的一個工具(軟件),使得集群的安裝可以從幾天的時間縮短為幾個小時,運維人數也會從數十人降低到幾個人,極大的提高了集群管理的效率。
為什么選擇CDH部署Cluster
1)CDH基於穩定版Apache Hadoop,並應用最新Bug修復或者Feature的Patch
2)Cloudera官網上安裝、升級文檔十分詳細
3)CDH支持Yum包、tar包、RPM包,Cloudera Manager四種安裝方式。推薦使用Yum、Apt方式安裝
對於CDH的安裝,后期我會分別使用yum和Cloudera Manager兩種方式進行安裝。在這里先說下Cloudera Manager的功能。
Cloudera Manager的功能
1)管理:對集群進行管理,例如添加、刪除節點等操作
2)監控:監控集群的健康情況,對設置的各種指標和系統的具體運行情況進行全面的監控
3)診斷:對集群出現的各種問題進行診斷,並且給出建議和解決方案
4)集成:多組件可以進行版本兼容間的整合
CDH架構圖
當然以上所畫圖只是一些基礎,還有很多大數據組件沒有畫。
下面對圖中體系結構做些簡單說明:
數據整合
flume主要是日志采集組件,可以從tomcat服務日志或者nginx日志中獲取產生的日志
sqoop主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。
nfs是FreeBSD支持的文件系統中的一種,它允許網絡中的計算機之間通過TCP/IP網絡共享資源。在NFS的應用中,本地NFS的客戶端應用可以透明地讀寫位於遠端NFS服務器上的文件,就像訪問本地文件一樣。
HDFS
hdfs是一個分布式文件存儲系統,可以將大量的大文件進行存儲,它和其他的分布式文件系統的主要區別是它是一個高容錯的系統,適合部署在廉價的機器上,並且hdfs能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。
Hbase
官網解釋:
當您需要對大數據進行隨機,實時讀/寫訪問時,請使用Apache HBase™。該項目的目標是托管非常大的表 - 數十億行X百萬列 - 在商品硬件集群上。Apache HBase是一個開源的,分布式的,版本化的非關系數據庫,模仿Google的Bigtable: Chang等人的結構化數據分布式存儲系統。正如Bigtable利用Google文件系統提供的分布式數據存儲一樣,Apache HBase在Hadoop和HDFS之上提供類似Bigtable的功能。
Hbase的結構圖我先貼出來,以后我會詳細通過一篇博客進行介紹
現在生產環境下,如果做實時SQL分析的話,一般不會直接在hbase中使用SQL進行查詢,而是結合另一種工具Kylin。
kylin官網解釋
Apache Kylin™是一個開源的分布式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據,最初由eBay Inc.開發並貢獻至開源社區。
kylin完全是由我們中國開發人員進行開發的,並且現在已經成為Apache的頂級項目,使用kylin可以提高相同SQL在hive或者hbase中查詢的速度數十倍,具體kylin相關知識,后面通過博客介紹。
原文鏈接:https://blog.csdn.net/czz1141979570/article/details/86530878