Kylin配置Spark並構建Cube

本文轉載自查看原文 2019-09-24 23:35 631

HDP版本：2.6.4.0

Kylin版本：2.5.1

機器：三台 CentOS-7，8G 內存

Kylin 的計算引擎除了 MapReduce ，還有速度更快的 Spark ，本文就以 Kylin 自帶的示例 kylin_sales_cube 來測試一下 Spark 構建 Cube 的速度。

一、配置Kylin的相關Spark參數

在運行 Spark cubing 前，建議查看一下這些配置並根據集群的情況進行自定義。下面是建議配置，開啟了 Spark 動態資源分配：

## Spark conf (default is in spark/conf/spark-defaults.conf)
kylin.engine.spark-conf.spark.master=yarn
kylin.engine.spark-conf.spark.submit.deployMode=cluster
kylin.engine.spark-conf.spark.yarn.queue=default
kylin.engine.spark-conf.spark.driver.memory=2G
kylin.engine.spark-conf.spark.executor.memory=4G
kylin.engine.spark-conf.spark.executor.instances=40
kylin.engine.spark-conf.spark.yarn.executor.memoryOverhead=1024
kylin.engine.spark-conf.spark.shuffle.service.enabled=true
kylin.engine.spark-conf.spark.eventLog.enabled=true
kylin.engine.spark-conf.spark.eventLog.dir=hdfs\:///kylin/spark-history
kylin.engine.spark-conf.spark.history.fs.logDirectory=hdfs\:///kylin/spark-history
#kylin.engine.spark-conf.spark.hadoop.yarn.timeline-service.enabled=false
#
#### Spark conf for specific job
#kylin.engine.spark-conf-mergedict.spark.executor.memory=6G
#kylin.engine.spark-conf-mergedict.spark.memory.fraction=0.2
#
## manually upload spark-assembly jar to HDFS and then set this property will avoid repeatedly uploading jar
## at runtime
kylin.engine.spark-conf.spark.yarn.archive=hdfs://node71.data:8020/kylin/spark/spark-libs.jar
kylin.engine.spark-conf.spark.io.compression.codec=org.apache.spark.io.SnappyCompressionCodec
#
## 如果是HDP版本，請取消下述三行配置的注釋
kylin.engine.spark-conf.spark.driver.extraJavaOptions=-Dhdp.version=current
kylin.engine.spark-conf.spark.yarn.am.extraJavaOptions=-Dhdp.version=current
kylin.engine.spark-conf.spark.executor.extraJavaOptions=-Dhdp.version=current

其中 kylin.engine.spark-conf.spark.yarn.archive 配置是指定了 Kylin 引擎要運行的 jar 包，該 jar 包需要自己生成且上傳到 HDFS 。由於我執行 Kylin 服務的用戶是 kylin，所以要先切換到 kylin 用戶下去執行。命令如下：

su - kylin
cd /usr/hdp/2.6.4.0-91/kylin
# 生成spark-libs.jar文件
jar cv0f spark-libs.jar -C $KYLIN_HOME/spark/jars/ ./
# 上傳到HDFS上的指定目錄
hadoop fs -mkdir -p /kylin/spark/
hadoop fs -put spark-libs.jar /kylin/spark/

二、修改Cube的配置

配置好 Kylin 的相關 Spark 參數后，接下來我們需要將 Cube 的計算引擎修改為 Spark ，修改步驟如下：

先指定 Kylin 自帶的生成 Cube 腳本：sh ${KYLIN_HOME}/bin/sample.sh ，會在 Kylin Web 頁面上加載出兩個 Cube 。

接着訪問我們的 Kylin Web UI ，然后點擊 Model -> Action -> Edit 按鈕：

點擊第五步：Advanced Setting，往下划動頁面，更改 Cube Engine 類型，將 MapReduce 更改為 Spark。然后保存配置修改。如下圖所示：

點擊 “Next” 進入 “Configuration Overwrites” 頁面，點擊 “+Property” 添加屬性 “kylin.engine.spark.rdd-partition-cut-mb” 其值為 “500” （理由如下）：

樣例 cube 有兩個耗盡內存的度量: “COUNT DISTINCT” 和 “TOPN(100)”；當源數據較小時，他們的大小估計的不太准確: 預估的大小會比真實的大很多，導致了更多的 RDD partitions 被切分，使得 build 的速度降低。500 對於其是一個較為合理的數字。點擊 “Next” 和 “Save” 保存 cube。

對於沒有”COUNT DISTINCT” 和 “TOPN” 的 cube，請保留默認配置。

三、構建Cube

保存好修改后的 cube 配置后，點擊 Action -> Build，選擇構建的起始時間（一定要確保起始時間內有數據，否則構建 cube 無意義），然后開始構建 cube 。

在構建 cube 的過程中，可以打開 Yarn ResourceManager UI 來查看任務狀態。當 cube 構建到第七步時，可以打開 Spark 的 UI 網頁，它會顯示每一個 stage 的進度以及詳細的信息。

Kylin 是使用的自己內部的 Spark ，所以我們還需要額外地啟動 Spark History Server 。

${KYLIN_HOME}/spark/sbin/start-history-server.sh hdfs://<namenode_host>:8020/kylin/spark-history

訪問：http://ip:18080/ ，可以看到 Spark 構建 Cube 的 job 詳細信息，該信息對疑難解答和性能調整有極大的幫助。

四、FAQ

在使用 Spark 構建 Cube 的過程中，遇到了兩個錯誤，都解決了，特此記錄一下，讓大家明白，公眾號內都是滿滿的干貨。

1、Spark on Yarn 配置調整

報錯內容：

Exception in thread "main" java.lang.IllegalArgumentException: Required executor memory (4096+1024 MB) is above the max threshold (4096 MB) of this cluster! Please check the values of 'yarn.scheduler.maximum-allocation-mb' and/or 'yarn.nodemanager.resource.memory-mb'.

問題分析：

根據報錯日志分析，任務所需的執行內存（4096 + 1024MB）高於了此集群最大的閾值。可以調整Spark任務的執行內存或者是Yarn的相關配置。

Spark任務所需的執行內存（4096 + 1024MB）對應的配置分別是：

kylin.engine.spark-conf.spark.executor.memory=4G
kylin.engine.spark-conf.spark.yarn.executor.memoryOverhead=1024

Yarn相關配置：

yarn.nodemanager.resource.memory-mb：NodeManager是YARN中單個節點的代理，它需要與應用程序的ApplicationMaster和集群管理者ResourceManager交互。該屬性代表該節點Yarn可使用的物理內存總量。
yarn.scheduler.maximum-allocation-mb：代表單個任務可申請的最大物理內存量。該配置值不能大於yarn.nodemanager.resource.memory-mb配置值大小。

解決辦法：

以調整 Yarn 配置為例，調整 yarn.scheduler.maximum-allocation-mb 大小，由於依賴於 yarn.nodemanager.resource.memory-mb ，所以兩個配置都調整為比執行內存（4096+1024 MB）大的數值，比如：5888 MB 。

2、構建 Cube 第八步：Convert Cuboid Data to HFile 報錯

報錯內容：

java.lang.NoClassDefFoundError: Could not initialize class org.apache.hadoop.hbase.io.hfile.HFile

問題分析：

kylin.engine.spark-conf.spark.yarn.archive 參數值指定的 spark-libs.jar 文件缺少 HBase 相關的類文件。

解決辦法：

由於缺失 HBase 相關的類文件比較多，參照 Kylin 官網給出的解決方式依舊報找不到類文件，所以我將 HBase 相關的 jar 包都添加到了 spark-libs.jar 里面。如果你已經生成了 spark-libs.jar 並上傳到了 HDFS，那么你需要重新打包上傳。具體操作步驟如下：

su - kylin
cd /usr/hdp/2.6.4.0-91/kylin
cp -r /usr/hdp/2.6.4.0-91/hbase/lib/hbase* /usr/hdp/2.6.4.0-91/kylin/spark/jars/
rm -rf spark-libs.jar;jar cv0f spark-libs.jar -C spark/jars/ ./
hadoop fs -rm -r /kylin/spark/spark-libs.jar    
hadoop fs -put spark-libs.jar /kylin/spark/

然后切換到 Kylin Web 頁面，繼續構建 Cube 。

五、Spark與MapReduce的對比

使用 Spark 構建 Cube 共耗時約 7 分鍾，如下圖所示：

使用 MapReduce 構建 Cube 共耗時約 15 分鍾，如下圖所示：

還是使用 Spark 構建 cube 快，還快不少！

六、總結

本篇文章主要介紹了：

如何配置 Kylin 的相關 Spark 參數
如何更改 Cube 的計算引擎
生成 spark-libs.jar 包並上傳到 HDFS
Spark 構建 Cube 過程中的 FAQ
Spark 與 MapReduce 構建 Cube 的速度對比

本文參考鏈接：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 kylin cube 構建過程 kylin構建cube優化 Kylin構建Cube過程詳解 Kylin構建Cube過程詳解【轉】Kylin中的cube構建 Apache Kylin Cube 的構建過程大數據集群運維（28） Kylin 配置使用 flink 構建 Cube Kylin cube構建維度錯誤及查詢不到數據 Kylin構建cube時狀態一直處於pending kylin的構建引擎從mr換成spark