Hive學習（九）參數設置（調優）

本文轉載自查看原文 2019-07-26 14:18 589 Hive

Hive的參數設置方式

1、配置文件（全局有效）

2、命令行參數（對 hive 啟動實例有效）

3、參數聲明（對 hive 的連接 session 有效）

（1）配置文件

Hive 的配置文件包括：

　　A.　用戶自定義配置文件：$HIVE_CONF_DIR/hive-site.xml

　　B.　默認配置文件：$HIVE_CONF_DIR/hive-default.xml

用戶自定義配置會覆蓋默認配置。

另外，Hive 也會讀入 Hadoop 的配置，因為 Hive 是作為 Hadoop 的客戶端啟動的，Hive 的配置會覆蓋 Hadoop 的配置。

配置文件的設定對本機啟動的所有 Hive 進程都有效。

（2）命令行參數

啟動 Hive（客戶端或 Server 方式）時，可以在命令行添加-hiveconf param=value 來設定參數，這一設定對本次啟動的 session（對於 server 方式啟動，則是所有請求的 session）有效。

bin/hive -hiveconf hive.root.logger=INFO,console

（3）參數聲明

可以在 HQL 中使用 SET 關鍵字設定參數

使用動態分區

set hive.exec.dynamic.partition=true;  
set hive.exec.dynamic.partition.mode=nonstrict;

並行計算

set hive.exec.parallel=true;
set hive.exec.parallel.thread.number=8;

數據傾斜（map join）

map join 概念：將其中做連接的小表（全量數據）分發到所有 MapTask 端進行 Join，從而避免了 reduceTask，前提要求是內存足以裝下該全量數據

set hive.auto.convert.join=true; //設置 MapJoin 優化自動開啟
set hive.mapjoin.smalltable.filesize=25000000 //設置小表不超過多大時開啟 mapjoin 優化

適當加大map

set mapreduce.input.fileinputformat.split.maxsize=20000000;
set mapreduce.input.fileinputformat.split.minsize.per.node=10000000;
set mapreduce.input.fileinputformat.split.minsize.per.rack=10000000;

JOIN優化

1). 將大表放后頭
Hive假定查詢中最后的一個表是大表。它會將其它表緩存起來，然后掃描最后那個表。
因此通常需要將小表放前面，或者標記哪張表是大表：/*streamtable(table_name) */
2). 使用相同的連接鍵
當對3個或者更多個表進行join連接時，如果每個on子句都使用相同的連接鍵的話，那么只會產生一個MapReduce job。
3). 盡量盡早地過濾數據
減少每個階段的數據量,對於分區表要加分區，同時只選擇需要使用到的字段。
4). 盡量原子化操作
盡量避免一個SQL包含復雜邏輯，可以使用中間表來完成復雜的邏輯

Limit快速出結果

一般情況下，Limit語句還是需要執行整個查詢語句，然后再返回部分結果。
有一個配置屬性可以開啟，避免這種情況---對數據源進行抽樣

hive.limit.optimize.enable=true --- 開啟對數據源進行采樣的功能
hive.limit.row.max.size --- 設置最小的采樣容量
hive.limit.optimize.limit.file --- 設置最大的采樣樣本數

set mapreduce.job.name=${fileName}_0; --作業名稱
set mapreduce.job.priorite=NORMAL; --作業優先級
set mapreduce.job.queuename=default; --作業隊列

--負載均衡
set hive.map.aggr = true; --是否在map端聚合
set hive.groupby.skewindata=true; --不支持多列剔重
set hive.groupby.mapaggr.checkinterval=100000; --在 Map 端進行聚合操作的條目數目

--壓縮設置
set mapred.compress.map.output = true; --對map任務輸出進行壓縮
set mapred.output.compress = true; --壓縮輸出
set hive.exec.compress.output = true; --控制hive的查詢結果輸出是否進行壓縮

--中間過程壓縮設置
set hive.exec.compress.intermediate=true; --控制hive的查詢中間結果是否進行壓縮，同上條配置，默認不壓縮false；
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

--輸入設置
set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; --表示執行前進行小文件合並
set mapred.max.split.size = 256000000; --決定每個map處理的最大的文件大小，單位為B
set mapred.min.split.size.per.node = 256000000; --節點中可以處理的最小的文件大小
set mapred.min.split.size.per.rack = 256000000; --機架中可以處理的最小的文件大小

--輸出設置
set hive.merge.mapfiles = true; --合並map端輸出的結果
set hive.merge.mapredfiles = true; --合並reduce端輸出的結果
set hive.merge.size.per.task = 256000000; --merge job后每個文件的目標大小
set hive.merge.smallfiles.avgsize = 256000000;

--reduce數量
set mapred.reduce.tasks= 300;
set hive.exec.reducers.bytes.per.reducer = 5120000000;

--並行設置
set hive.exec.parallel = true;
set hive.exec.parallel.thread.number = 8;

--內存相關設置
set mapreduce.map.memory.mb=8096;
set mapreduce.reduce.memory.mb=10144;

--開啟動態分區功能
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.max.created.files=10000;
set hive.exec.max.dynamic.partitions=10000;
set hive.exec.max.dynamic.partitions.pernode=10000;

--mapjoin設置
set hive.auto.convert.join=true;
set hive.auto.convert.join.noconditionaltask=true;
set hive.auto.convert.join.noconditionaltask.size=10000000;

set hive.mapjoin.smalltable.filesize = 10240000;

-- 開啟嚴格模式
set hive.marped.mode=strict;

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 jar包JVM參數設置及調優關於線上JVM動態參數設置調優 hive參數設置 Hive參數配置調優 JVM調優－java虛擬機內存模型及參數設置【Hive學習之八】Hive 調優【重要】 hive on spark 調優 hive-sql參數調優及資源分配 Eureka 參數調優 Eureka【參數調優】

Hive學習（九） 參數設置（調優）