面試必備技能-HiveSQL優化 - 碼上歡樂

相關內容簡體繁體

面試必備技能-HiveSQL優化

本文轉載自查看原文 2019-04-25 22:50 2072 Java/ Hadoop/ Kafka/ Spark/ Flink/ 大數據

Hive SQL基本上適用大數據領域離線數據處理的大部分場景。Hive SQL的優化也是我們必須掌握的技能，而且，面試一定會問。那么，我希望面試者能答出其中的80%優化點，在這個問題上才算過關。

Hive優化目標

在有限的資源下，執行效率更高

常見問題

數據傾斜
map數設置
reduce數設置
其他

Hive執行

HQL --> Job --> Map/Reduce
執行計划

explain [extended] hql
樣例
select col,count(1) from test2 group by col;
explain select col,count(1) from test2 group by col;

Hive表優化

分區

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

靜態分區
動態分區

分桶

set hive.enforce.bucketing=true;
set hive.enforce.sorting=true;

數據

相同數據盡量聚集在一起

Hive Job優化

並行化執行

每個查詢被hive轉化成多個階段，有些階段關聯性不大，則可以並行化執行，減少執行時間
set hive.exec.parallel= true;
set hive.exec.parallel.thread.numbe=8;

本地化執行

job的輸入數據大小必須小於參數:hive.exec.mode.local.auto.inputbytes.max(默認128MB)
job的map數必須小於參數:hive.exec.mode.local.auto.tasks.max(默認4)
job的reduce數必須為0或者1

set hive.exec.mode.local.auto=true;
當一個job滿足如下條件才能真正使用本地模式:

job合並輸入小文件

set hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
合並文件數由mapred.max.split.size限制的大小決定

job合並輸出小文件

set hive.merge.smallfiles.avgsize=256000000;當輸出文件平均小於該值，啟動新job合並文件
set hive.merge.size.per.task=64000000;合並之后的文件大小

JVM重利用

set mapred.job.reuse.jvm.num.tasks=20;
JVM重利用可以使得JOB長時間保留slot,直到作業結束，這在對於有較多任務和較多小文件的任務是非常有意義的，減少執行時間。當然這個值不能設置過大，因為有些作業會有reduce任務，如果reduce任務沒有完成，則map任務占用的slot不能釋放，其他的作業可能就需要等待。

壓縮數據

set hive.exec.compress.output=true;
set mapred.output.compreession.codec=org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compression.type=BLOCK;

set hive.exec.compress.intermediate=true;
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set hive.intermediate.compression.type=BLOCK;

中間壓縮就是處理hive查詢的多個job之間的數據，對於中間壓縮，最好選擇一個節省cpu耗時的壓縮方式
hive查詢最終的輸出也可以壓縮

Hive Map優化

set mapred.map.tasks =10; 無效
(1)默認map個數

default_num=total_size/block_size;

(2)期望大小

goal_num=mapred.map.tasks;

(3)設置處理的文件大小

split_size=max(mapred.min.split.size,block_size);
split_num=total_size/split_size;

(4)計算的map個數

compute_map_num=min(split_num,max(default_num,goal_num))

經過以上的分析，在設置map個數的時候，可以簡答的總結為以下幾點：

增大mapred.min.split.size的值

如果想增加map個數，則設置mapred.map.tasks為一個較大的值
如果想減小map個數，則設置mapred.min.split.size為一個較大的值
情況1：輸入文件size巨大，但不是小文件
情況2：輸入文件數量巨大，且都是小文件，就是單個文件的size小於blockSize。這種情況通過增大mapred.min.split.size不可行，需要使用combineFileInputFormat將多個input path合並成一個InputSplit送給mapper處理，從而減少mapper的數量。

map端聚合

set hive.map.aggr=true;

推測執行

mapred.map.tasks.apeculative.execution

Hive Shuffle優化

Map端

io.sort.mb
io.sort.spill.percent
min.num.spill.for.combine
io.sort.factor
io.sort.record.percent

Reduce端

mapred.reduce.parallel.copies
mapred.reduce.copy.backoff
io.sort.factor
mapred.job.shuffle.input.buffer.percent
mapred.job.shuffle.input.buffer.percent
mapred.job.shuffle.input.buffer.percent

Hive Reduce優化

需要reduce操作的查詢

group by,join,distribute by,cluster by...
order by比較特殊,只需要一個reduce

sum,count,distinct...

聚合函數
高級查詢

推測執行

mapred.reduce.tasks.speculative.execution
hive.mapred.reduce.tasks.speculative.execution

Reduce優化

numRTasks = min[maxReducers,input.size/perReducer]
maxReducers=hive.exec.reducers.max
perReducer = hive.exec.reducers.bytes.per.reducer

hive.exec.reducers.max 默認：999
hive.exec.reducers.bytes.per.reducer 默認:1G

set mapred.reduce.tasks=10;直接設置
計算公式

Hive查詢操作優化
join優化

關聯操作中有一張表非常小
不等值的鏈接操作
set hive.auto.current.join=true;
hive.mapjoin.smalltable.filesize默認值是25mb
select /*+mapjoin(A)*/ f.a,f.b from A t join B f on (f.a=t.a)
hive.optimize.skewjoin=true;如果是Join過程出現傾斜，應該設置為true
set hive.skewjoin.key=100000; 這個是join的鍵對應的記錄條數超過這個值則會進行優化
mapjoin
簡單總結下,mapjoin的使用場景:

Bucket join

兩個表以相同方式划分桶
兩個表的桶個數是倍數關系
crete table order(cid int,price float) clustered by(cid) into 32 buckets;
crete table customer(id int,first string) clustered by(id) into 32 buckets;
select price from order t join customer s on t.cid=s.id

join 優化前

select m.cid,u.id from order m join customer u on m.cid=u.id where m.dt='2013-12-12';

join優化后

select m.cid,u.id from (select cid from order where dt='2013-12-12')m join customer u on m.cid=u.id;

group by 優化

hive.groupby.skewindata=true;如果是group by 過程出現傾斜應該設置為true
set hive.groupby.mapaggr.checkinterval=100000;--這個是group的鍵對應的記錄條數超過這個值則會進行優化

count distinct 優化

優化前

select count(distinct id) from tablename

優化后

select count(1) from (select distinct id from tablename) tmp;
select count(1) from (select id from tablename group by id) tmp;

優化前

select a,sum(b),count(distinct c),count(distinct d) from test group by a

優化后

select a,sum(b) as b,count(c) as c,count(d) as d from(select a,0 as b,c,null as d from test group by a,c union all select a,0 as b,null as c,d from test group by a,d union all select a,b,null as c,null as d from test)tmp1 group by a;

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hivesql優化的深入解析 Python必備技能之CRLF注入 Intellij IDEA 看源碼必備技能！重構必備技能之前言軟件測試必備技能架構必備技能第一談重構必備技能之條件表達式必備技能六、Vue中實現全局方法成為黑客高手的必備技能淺談面試官的“被面試”技能

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM