1、Kafka是一種高吞吐量的分布式發布訂閱消息系統;
應用場景:
(1) kafka可以作為"網站活性跟蹤"的最佳工具;可以將網頁/用戶操作等信息發送到kafka中.並實時監控,或者離線統計分析等;
(2) Kafka通常被用於可操作的監控數據。這包括從分布式應用程序來的聚合統計用來生產集中的運營數據提要。
2、Impala是實時交互SQL大數據查詢工具;
3、jps進程對應的組件服務名稱:
(1)QuorumPeerMain:zookeeper服務;
(2)HBase的服務器體系結構遵從簡單的主從服務器架構,它由HRegion服務器群和HBase Master服務器構成:
HMaster//必須的,表明該hbase是Master QuorumPeerMain//必須單獨配置的Zookeeper集群,如果是內置的則為HQuorumPeer HRegionServer//不是必須的,因為我們也將該Master設置為Region NameNode//必須,任務調度器 SencondNameNode//必須,任務調度器 HRegion可能的進程: QuorumPeerMain//必須單獨配置的Zookeeper集群,如果是內置的則為HQuorumPeer DataNode//必須,數據存儲相關 HRegionServer//必須,表明是hbase存儲節點; ThriftServer:Impala服務
4、cdh集群配置規則:
1)HDFS、YARN、Hbase三個組件不能裝同一台機器; 2)zookeeper裝奇數台; 3)管理節點3-5台; 4)群集設置:所有目錄/var變成/data 5)Hbase默認端口60000,如果ssh端口設置為60000,兩者會有沖突;
5、通過CM搭建CDH無法啟動CM的原因:
(1)搭建CDH集群的時候相應版本號匹配規則,jdk1.8.9_141-cloudera配對cm5.13.0/cdh5.13.0;
(2)當CM啟動報錯的時候:
1)JDK版本號和CM版本號匹配不上,在/usr/java路徑下上傳jdk1.8.0_141-cloudera; 2)數據庫沒有日志生成,在/etc/cloudera-scm-server路徑下添加log4j.properties;
6、CDH遠程初始化數據庫命令:
/usr/share/cmf/schema/scm_prepare_database.sh mysql -h 10.10.72.92 -p3306 cm cm password
7、hadoop默認安裝路徑:
/data/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29