1. 集群節點規划與說明
rzx1 all
rzx2 query
rzx3 query
說明:
Kylin節點角色有三種:
all: 包含query和job
query: 查詢節點
job: 工作節點
2. Kylin依賴的其他大數據組件非常多,下列列表是安裝kylin需要的組件
JDK 1.8<必須項>
HADOOP<必須項,hdfs作為數據存儲基礎,這里版本是hadoop-2.7.7>
ZOOKEERER<必須項,集群協調,這里版本zookeeper-3.4.13>
HBASE<必須項,可以理解為數據中間件,這里版本hbase-2.0.4>
HIVE<必須項,kylin OLAP基礎數倉或可以理解為OLAP數據源,這里版本hive-2.3.4>
KAFKA<可選項,這里不安裝>
3. 在已下載解壓好的目錄下
<下載地址: https://archive.apache.org/dist/kylin/>
在rzx1節點下:
vim conf/kylin.properties:
kylin.server.mode=all
kylin.server.cluster-servers=rzx1:7070,rzx2:7070,rzx3:7070
kylin.coprocessor.local.jar=/home/bigdata/software/kylin-2.6.2/lib/kylin-coprocessor-2.6.2.jar
說明:開發測試環境目前只安裝簡易版,該配置文件配置參數非常多,實際生產環境需要根據實際情況來配置
4. 在rzx1節點下將上面配置好的kylin目錄scp到rzx2,rzx3節點上
在kylin當前目錄的上一層目錄上:
scp -r kylin-2.6.2 root@rzx2:/home/bigdata/software/
scp -r kylin-2.6.2 root@rzx2:/home/bigdata/software/
將rzx2,rzx3節點kylin目錄下conf/kylin.properties
的
kylin.server.mode改為query
kylin.server.mode=query
5. 配置kylin環境變量
前提配置好kylin依賴的組件的環境變量
export KYLIN_HOME=/home/bigdata/software/kylin-2.6.2
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$ZK_HOME/bin:$KAFKA_HOME/bin:$HBASE_HOME/bin:$HCAT_HOME/bin:$KYLIN_HOME/bin:$PATH
這里為了方便kylin依賴的完整組件的環境變量,貼出我的全部環境變量配置:
export JAVA_HOME=/home/bigdata/software/jdk1.8.0_201
export HADOOP_HOME=/home/bigdata/software/hadoop-2.7.7
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export YARN_HOME=${HADOOP_HOME}
export HIVE_HOME=/home/bigdata/software/hive-2.3.4
export HIVE_CONF_DIR=/home/bigdata/software/hive-2.3.4/conf
export HCAT_HOME=$HIVE_HOME/hcatalog
export ZK_HOME=/home/bigdata/software/zookeeper-3.4.13
export KAFKA_HOME=/home/bigdata/software/kafka_2.11-2.0.0
export HBASE_HOME=/home/bigdata/software/hbase-2.0.4
export KYLIN_HOME=/home/bigdata/software/kylin-2.6.2
export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/natvie
export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib:${HADOOP_HOME}/lib/native"
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$ZK_HOME/bin:$KAFKA_HOME/bin:$HBASE_HOME/bin:$HCAT_HOME/bin:$KYLIN_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
6. 上面配置完成無誤后,啟動kylin依賴檢測
前提:檢測前要確保hadoop,zookeeper,hbase,hive正常啟動
檢測依次執行以下命令:
# 執行下面的檢查命令會在 hdfs 上創建 kylin 目錄
./check-env.sh
# 檢查數據源 hive 和數據存儲 hbase
./find-hive-dependency.sh
./find-hbase-dependency.sh
說明:如果環境變量配置不正確,依賴組件不能正常啟動,檢測是不會通過的,只能一項項去排查了
7. 在每個節點上都啟動kylin集群
kylin.sh start
說明:執行啟動命令后kylin會去自動檢測它需要的相關組件的相關依賴,如下圖提示
這里需要主要,如果你沒有安裝spark,kylin就回檢測它依賴的執行引擎的相關依賴不存在,所以會提示用本身提供的腳本去下載,如果你的大數據計算引擎不是spark按照提示下載即可,如果是只需要正確配置就可以了,在kylin的bin目錄下提供了下載spark的腳本
bin/download-spark.sh
這里事先下載好了所以不會提示
8. 驗證
在第7部啟動結束末尾提示
證明啟動無誤,注意三個節點都需要得到該提示才會證明完全成功,不然就會出現query和job能力缺少導致功能不能使用
進一步根據提示通過圖形化界面確認
注意:表紅框的地方在正確無誤啟動后不會立即有,因為這是數據及模型,所有啟動成功后Models,Datasour,Cubes都是空的
9. 加入數據及模型
Kylin很貼心,知道你第一次不會,所以提供了一個實例化kylin三個核心Models,Datasour,Cubes的腳本,該腳本在kylin目錄下bin目錄下
bin/sample.sh
正確啟動后再執行bin/sample.sh,這個過程需要一些時間,當看到下面信息,證明正確創建了一個kylin instance
根據提示,需要重啟kylin實例才能生效,所以重啟kylin
注意:kylin提供的命令不支持
kylin.sh restart
所以只能先
kylin.sh stop
再
kylin.sh start
注意是每個節點
進行如上操作后再查看可視化界面:
至此kylin部署配置,啟動,添加樣例實例全部成功
10. 還可以驗證hive上是否有kylin相關數據實例的表
說明: 這里只是簡易的開發測試集群搭建配置,實際數據量過大的生產環境配置可能相對復雜些