Hive開啟mapjoin優化、並行執行、動態分區

本文轉載自查看原文 2019-07-11 17:48 1188 Hive/ BigData

1. mapjoin優化適合小表join大表

set hive.optimize.skewjoin=true; //有數據傾斜時開啟負載均衡，默認false
set hive.auto.convert.join=true; //設置自動選擇MapJoin，默認是true
set hive.auto.convert.join.noconditionaltask=true; //map-side join
set hive.auto.convert.join.noconditionaltask.size=100000000; //多大的表可以自動觸發放到內層LocalTask中，默認大小10M
set hive.mapjoin.smalltable.filesize=200000000; //設置mapjoin小表的文件大小為20M，小表閾值

2. 開啟並行執行

set hive.exec.parallel=true; //可以開啟並發執行
set hive.exec.parallel.thread.number=16; //同一個sql允許最大並行度，默認為8。

3. 開啟動態分區

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 詳解SQL優化必備：並行執行框架和執行計划 for 循環的多線程並行執行並行執行任務 Stat-Job C# -- 使用Parallel並行執行任務基於spring注解的定時任務-並行執行 hive動態分區和混合分區 Hive的靜態分區和動態分區 Hive動態分區 Hive 動態分區 Hive的動態分區