hive join 优化 --小表join大表

本文转载自查看原文 2017-05-26 11:31 5252

1、小、大表 join

在小表和大表进行join时，将小表放在前边，效率会高。hive会将小表进行缓存。

2、mapjoin

使用mapjoin将小表放入内存，在map端和大表逐一匹配。从而省去reduce。

样例：

select /*+MAPJOIN(b)*/ a.a1,a.a2,b.b2 from tablea a JOIN tableb b ON a.a1=b.b1

在0.7版本号后。也能够用配置来自己主动优化

set hive.auto.convert.join=true;

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Hive优化-大表join大表优化 HIVE 大表JOIN大表优化方法 hive大小表join性能优化大数据开发实战：Hive优化实战2-大表join小表优化 Hive:表１inner join表２结果group by优化关于hive中Map join 时大表left join小表的问题 Hive--关联表（join） impala表关联join优化1 大数据开发实战：Hive优化实战3-大表join大表优化 mysql驱动表与被驱动表及join优化