hive數據傾斜的解決辦法

本文轉載自查看原文 2019-02-12 11:13 4456 hive/ hadoop

數據傾斜是進行大數據計算時常見的問題。主要分為map端傾斜和reduce端傾斜，map端傾斜主要是因為輸入文件大小不均勻導致，reduce端主要是partition不均勻導致。

在hive中遇到數據傾斜的解決辦法：

一、傾斜原因：map端緩慢，輸入數據文件多，大小不均勻

當出現小文件過多，需要合並小文件。可以通過set hive.merge.mapfiles=true來解決。

set hive.map.aggr=true; //map端部分聚合，相當於Combiner，可以減小壓力（默認開啟）

set hive.groupby.skewindata=true(默認關閉);//有數據傾斜的時候進行負載均衡，當選項設定為 true，生成的查詢計划會有兩個 MR Job。第一個 MR Job 中，Map 的輸出結果集合會隨機分布到 Reduce 中，每個 Reduce 做部分聚合操作，並輸出結果，這樣處理的結果是相同的 Group By Key 有可能被分發到不同的 Reduce 中，從而達到負載均衡的目的；第二個 MR Job 再根據預處理的數據結果按照 Group By Key 分布到 Reduce 中（這個過程可以保證相同的 Group By Key 被分布到同一個 Reduce 中），最后完成最終的聚合操作。

單個文件大小稍稍大於配置的block塊的大寫，此時需要適當增加map的個數。解決方法：set mapred.map.tasks個數

文件大小適中，但map端計算量非常大，如select id,count(*),sum(case when...),sum(case when...)...需要增加map個數。解決方法：set mapred.map.tasks個數，set mapred.reduce.tasks個數

二、當遇到一個大表和一個小表進行join操作時

解決方法：小表在join左側，大表在右側，或使用mapjoin 將小表加載到內存中。然后再對比較大的表進行map操作。

join就發生在map操作的時候，這里的join並不會涉及reduce操作。map端join的優勢就是在於沒有shuffle，

如：select /*+ MAPJOIN(a) */

a.c1, b.c1 ,b.c2 from a join b

where a.c1 = b.c1;

三、遇到需要進行join的但是關聯字段有數據為null，如表一的id需要和表二的id進行關聯，null值的reduce就會落到一個節點上

解決方法1：子查詢中過濾掉null值，id為空的不參與關聯

解決方法2：用case when給空值分配隨機的key值（字符串+rand()）

四、不同數據類型關聯產生數據傾斜

場景：一張表s8的日志，每個商品一條記錄，要和商品表關聯。但關聯卻碰到傾斜的問題。s8的日志中有字符串商品id,也有數字的商品id,類型是string的，但商品中的數字id是bigint的。猜測問題的原因是把s8的商品id轉成數字id做hash來分配reduce，所以字符串id的s8日志，都到一個reduce上了，解決的方法驗證了這個猜測。

解決方法：把數字類型轉換成字符串類型

Select * from s8_log a

Left outer join r_auction_auctions b

On a.auction_id = cast(b.auction_id as string);

五、當HiveQL中包含count（distinct）時

如果數據量非常大，執行如select a,count(distinct b) from t group by a;類型的SQL時，會出現數據傾斜的問題。

解決方法：使用sum...group by代替。如select a,sum(1) from (select a, b from t group by a,b) group by a;

六、join和Group的優化
2.1 對於普通的join操作，會在map端根據key的hash值，shuffle到某一個reduce上去，在reduce端做join連接操作，內存中緩存join左邊的表，遍歷右邊的表，一次做join操作。所以在做join操作時候，將數據量多的表放在join的右邊。
當數據量比較大，並且key分布不均勻，大量的key都shuffle到一個reduce上了，就出現了數據的傾斜。

在map端產生join

mapJoin的主要意思就是，當鏈接的兩個表是一個比較小的表和一個特別大的表的時候，我們把比較小的table直接放到內存中去，然后再對比較大的表格進行map操作。join就發生在map操作的時候，每當掃描一個大的table中的數據，就要去去查看小表的數據，哪條與之相符，繼而進行連接。這里的join並不會涉及reduce操作。map端join的優勢就是在於沒有shuffle，

2.2 對於Group操作，首先在map端聚合，最后在reduce端坐聚合，hive默認是這樣的，以下是相關的參數
· hive.map.aggr = true是否在 Map 端進行聚合，默認為 True
· hive.groupby.mapaggr.checkinterval = 100000在 Map 端進行聚合操作的條目數目

轉載自：https://www.cnblogs.com/kongcong/p/7777092.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hive數據傾斜和解決辦法 hive數據傾斜原因以及解決辦法 Hive數據傾斜原因和解決辦法（Data Skew） idea注釋字體傾斜的解決辦法 Hive、Inceptor數據傾斜詳解及解決 Hive數據傾斜 Hive千億級數據傾斜解決方案 Hive數據傾斜的原因及主要解決方法 Hive的HQL語句及數據傾斜解決方案實戰 | Hive 數據傾斜問題定位排查及解決