分布式大數據多維數據分析(olap)引擎kylin[轉]

本文轉載自查看原文 2018-07-05 09:57 1308 大數據

Apache Kylin是一個開源的分布式分析引擎，提供Hadoop之上的SQL查詢接口及多維分析（OLAP）能力以支持超大規模數據，最初由eBay 開發並貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。

kylin

Kylin OLAP引擎基礎框架，包括元數據（Metadata）引擎，查詢引擎，Job引擎及存儲引擎等，同時包括REST服務器以響應客戶端請求；

支持額外功能和特性的插件；

與調度系統，ETL，監控等生命周期管理系統的整合；

在Kylin核心之上擴展的第三方用戶界面；

官網地址：http://kylin.apache.org/

提供了主要功能及使用的中文文檔。

Kylin的架構特性

可擴展的超快OLAP引擎，提供標准SQL查詢接口

支持單機或集群部署，為減少在Hadoop上百億規模數據查詢延遲而設計；

提供標准SQL接口，滿足Hadoop之上的大部分分析查詢需求。

交互式查詢能力，多維立方體（MOLAP Cube）

用戶能夠在Kylin里為百億以上數據集定義數據模型並構建立方體。

與BI工具及其他應用整合

提供JDBC及ODBC驅動，與BI工具整合。

其他特性

壓縮與編碼；

增量更新；

利用HBase Coprocessor；

基於HyperLogLog的Dinstinc Count近似算法；

友好的web界面以管理，監控和使用立方體；

項目及立方體級別的訪問控制安全；

支持LDAP；

Kylin的安裝部署

下載地址：http://kylin.apache.org/download/

apache-kylin-1.5.1-bin.tar.gz

解壓至：/home/liuxiaowen/kylin

安裝部署環境

我這里使用的相關版本為：

hbase-0.98.6-cdh5.2.0

hadoop-2.3.0-cdh5.0.0

apache-hive-2.0.0-bin

apache-kylin-1.5.1-bin

jdk1.7+

特別注意：Hive應該使用至少0.14以上的版本，我第一次使用0.13.1時候有問題。

另外，請確保Hadoop、HBase、Hive可用，這里不介紹。

配置環境變量

部署使用的用戶為liuxiaowen

vi ~/.bash_profile

##HBASE
export HBASE_HOME=/opt/hbase-0.98.6-cdh5.2.0
export HBASE_CONF_DIR=/etc/hbase/conf
##HADOOP
export HADOOP_HOME=/opt/hadoop-2.3.0-cdh5.0.0
export HADOOP_CONF_DIR=/etc/hadoop/conf
export YARN_CONF_DIR=/etc/hadoop/conf
##HIVE
export HIVE_HOME=/home/liuxiaowen/apache-hive-2.0.0-bin
export HCAT_HOME=$HIVE_HOME/hcatalog
export HIVE_CONF=$HIVE_HOME/conf
##KYLIN
export KYLIN_HOME=/home/liuxiaowen/kylin/apache-kylin-1.5.1-bin

刷新環境變量：

source ~/.bash_profile

配置Kylin使用的Hive數據庫：

cd $KYLIN_HOME/conf

vi kylin.properties

# Hive database name for putting the intermediate flat tables

## 這里配置在Hive中使用的schema，需要寫權限

kylin.job.hive.database.for.intermediatetable=liuxiaowen

使用HDFS超級用戶在HDFS上為Kylin創建工作目錄，並賦權給liuxiaowen：

hadoop fs -mkdir /kylin

hadoop fs -chown -R liuxiaowen:liuxiaowen /kylin

## 可選，配置Kylin使用的內存

$KYLIN_HOME/bin/setenv.sh

檢查環境配置

cd $KYLIN_HOME/bin

./check-env.sh

kylin

啟動Kylin

cd $KYLIN_HOME/bin

./kylin.sh start

kylin

登陸Kylin WEB界面

瀏覽器輸入：

http://172.16.212.17:7070/kylin

用戶名密碼：ADMIN/KYLIN

kylin

遇到的幾個問題

都是因為使用了Hive0.13.1引起的：

Caused by: java.lang.IncompatibleClassChangeError:
Found interface org.apache.hadoop.mapreduce.JobContext, but class was expected

hcatalog版本問題，后改為Hive2.0中的hcatalog

export HCAT_HOME=/home/liuxiaowen/apache-hive-2.0.0-bin/hcatalog

java.lang.NoClassDefFoundError: org/apache/hadoop/hive/shims/Utils

Kylin的簡單示例

Kylin中多維分析Cube的建立主要包括以下步驟：

Hive中分析好事實表；
Kylin中建立項目(project)；
Kylin中建立數據源；
Kylin中建立數據模型；
Kylin中建立Cube；
Build Cube；
查詢Cube；

Kylin按照上面的過程，最終將Hive中的事實表按照相應的結構，壓縮並存儲在HBase中。

官網提供了中文文檔，說明了如何在Kylin中建立Cube，非常詳細：

http://kylin.apache.org/cn/docs15/tutorial/create_cube.html

Hive中的事實表

kylin

事實表lxw1234_kylin_fact中的維度有day、region、city、siteid、os；最終查詢的指標有兩個：PV以及UV（COUNT DISTINCT cookieid）

Kylin中建立數據模型

1. 建立項目lxw1234;

2. 將Hive中的事實表 lxw1234_kylin_fact導入到Kylin數據源：

kylin 3. 建立數據模型lxw1234_dataModel：

選擇維度數據：

kylin

選擇指標數據：

kylin

其他設置：

kylin

數據模型中的日期分區字段貌似是必選的，否則會有問題。

然后保存。

kylin

Kylin中建立Cube

kylin

設計維度：

kylin

設計指標：

kylin

其中，UV使用的COUNT_DISTINCT是近似計算，需要選擇錯誤率，錯誤率越低，占用的存儲越大，Build耗時越長。

其他設置請參考上面給的中文文檔鏈接，很詳細。

設置好之后保存。

kylin

Kylin中Build Cube

在Cube后面的Actions下拉菜單中選擇Build：

kylin

Submit之后，在Monitor頁面中可以看到Build Job的進度和狀態：

kylin

雙擊Job Name進入該Job的詳細監控頁：

kylin

Build完成后，在Model頁面可以看到這個Cube已經是READY狀態：

kylin

你可以在HBase中查看該Cube對應的HTable：

kylin

Kylin中使用SQL查詢

在Insight頁面中使用SQL查詢：

kylin

注意：由於DAY是關鍵字，需要使用雙引號。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 大數據分析神獸麒麟(Apache Kylin) 《基於Apache Kylin構建大數據分析平台》【轉】使用Apache Kylin搭建企業級開源大數據分析平台使用分布式數據庫集群做大數據分析之OneProxy Elasticsearch分布式搜索和數據分析引擎-ElasticStack（上）v7.14.0 WPF實現大數據分析結果展示(轉) ClickHouse數據庫培訓實戰（PB級大數據分析平台、大規模分布式集群架構）使用Kylin構建企業大數據分析平台的4種部署方式國人之光：大數據分析神器Apache Kylin 大數據分析與挖掘