hive join 優化 --小表join大表

本文轉載自查看原文 2017-05-26 11:31 5252

1、小、大表 join

在小表和大表進行join時，將小表放在前邊，效率會高。hive會將小表進行緩存。

2、mapjoin

使用mapjoin將小表放入內存，在map端和大表逐一匹配。從而省去reduce。

樣例：

select /*+MAPJOIN(b)*/ a.a1,a.a2,b.b2 from tablea a JOIN tableb b ON a.a1=b.b1

在0.7版本號后。也能夠用配置來自己主動優化

set hive.auto.convert.join=true;

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hive優化-大表join大表優化大數據開發實戰：Hive優化實戰2-大表join小表優化 hive大小表join性能優化 Hive Join優化 sql優化表連接join方式兩張超級大表join優化 Hive性能優化【嚴格模式、join優化、Map-Side聚合、JVM重用】 Spark(八)【利用廣播小表實現join避免Shuffle】 hive 連接（join）查詢 Hive以及spark的Join過程