CDH 中使用 Hive on Spark

本文轉載自查看原文 2022-03-17 11:44 1378 CDH

使用 Hive insert SQL 后查看 Yarn 發現其跑的是 MR 方式

這里想改用 Spark 引起來縮短 HiveQL 的響應時間

有兩種方式

兩種方式都可以，看個人習慣

Hive on Spark 大體與 SparkSQL 結構類似，只是 SQL 引擎不同，但是計算引擎都是 Spark

本文主要介紹 Hive on Spark

CDH Hive 配置中可以看到有官方的提示配置文檔

要將 Hive 配置為在 Spark 上運行，請執行以下兩個步驟

配置 Hive 依賴項為 Spark 服務

按照官方文檔操作即可

配置 Hive 客戶端以使用 Spark 執行引擎

CDH 中的 Hive 支持兩個執行引擎: MapReduce 和 Spark

要配置執行引擎，請執行以下步驟之一

beeline/hive: 運行 set hive.execution.engine=engine 命令，engine 選項要么wei mr 要么為 spark，
默認為 mr

set hive.execution.engine=spark;

# 查看當前的設置執行引擎
set hive.execution.engine;

Cloudera Manager（影響所有查詢，不推薦）:

官方文檔中提到性能

暫未研究，有興趣的可以自行看看

參考鏈接

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 CDH 5.12.0 中使用 spark 2.4.2 Alluxio集群搭建並整合CDH（MR/Hive/Spark） Hive中使用LZO 在Spark程序中使用壓縮 cdh 上安裝spark on yarn SPARK_sql加載,hive以及jdbc使用使用hive thriftserver 連接spark sql CDH hive-1.1.0-cdh5.10.0 安裝 Spark （十一） spark使用hive的元數據信息 cdh版本的hive安裝以及配置