hive中 bucket mapjoin 与 SMB join(Sort-Merge-Bucket)区别

本文转载自查看原文 2020-06-09 11:13 996 Hadoop

桶的概念: https://blog.csdn.net/bigkeen/article/details/51318997

1 bucket mapjoin
1.1 条件
1） set hive.optimize.bucketmapjoin = true;
2）一个表的bucket数是另一个表bucket数的整数倍
3） bucket列 == join列
4）必须是应用在map join的场景中

1.2 注意
1）如果表不是bucket的，只是做普通join。

2 SMB join （针对bucket mapjoin 的一种优化）
2.1 条件
1）
set hive.auto.convert.sortmerge.join=true;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;
set hive.auto.convert.sortmerge.join.noconditionaltask=true;
2）小表的bucket数=大表bucket数
3） Bucket 列 == Join 列 == sort 列
4）必须是应用在bucket mapjoin 的场景中

2.2 注意
hive并不检查两个join的表是否已经做好bucket且sorted，需要用户自己去保证join的表，否则可能数据不正确。有两个办法

1）hive.enforce.sorting 设置为true。
2）手动生成符合条件的数据，通过在sql中用distributed c1 sort by c1 或者 cluster by c1
表创建时必须是CLUSTERED且SORTED，如下
create table test_smb_2(mid string,age_id string)
CLUSTERED BY(mid) SORTED BY(mid) INTO 500 BUCKETS;

SMB(Sort-Merge-Buket) Join

场景：: 大表对小表应该使用MapJoin，但是如果是大表对大表，如果进行shuffle，那就要人命了啊，第一个慢不用说，第二个容易出异常，既然是两个表进行join，肯定有相同的字段吧。; tb_a - 5亿（按排序分成五份，每份1亿放在指定的数值范围内,类似于分区表）
a_id
100001 ~ 110000 - bucket-01-a -1亿
110001 ~ 120000
120001 ~ 130000
130001 ~ 140000
140001 ~ 150000; tb_b - 5亿（同上，同一个桶只能和对应的桶内数据做join）
b_id
100001 ~ 110000 - bucket-01-b -1亿
110001 ~ 120000
120001 ~ 130000
130001 ~ 140000
140001 ~ 150000; 注：实际生产环境中，一天的数据可能有50G（举例子可以把数据弄大点，比如说10亿分成1000个bucket）。
原理：: 在运行SMB Join的时候会重新创建两张表，当然这是在后台默认做的，不需要用户主动去创建，如下所示：

设置（默认是false）：

set hive.auto.convert.sortmerge.join=true set hive.optimize.bucketmapjoin=true; set hive.optimize.bucketmapjoin.sortedmerge=true;

总结：: 其实在写程序的时候，我们就可以知道哪些是大表哪些是小表，注意调优。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Hive中Bucket的应用 hive bucket Hive分桶之BUCKET详解 Hash中的bucket什么意思? hash bucket Pandas中merge和join的区别数据结构与算法-排序（十）桶排序（Bucket Sort）【ElasticSearch】踩坑对terms的buckets进行bucket_sort排序 hive中left semi join 与join 的区别 hive mapjoin