Hive_分区排序(Distribute By)

本文转载自查看原文 2019-11-06 20:49 1962 Hive

Distribute By：在有些情况下，我们需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。distribute by子句可以做这件事。distribute by类似MR中partition（自定义分区），进行分区，结合sort by使用。

对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。

案例实操：

（1）先按照部门编号分区，再按照员工编号降序排序。

hive (default)> set mapreduce.job.reduces=3;
hive (default)> insert overwrite local directory '/opt/module/datas/distribute-result' select * from emp distribute by deptno sort by empno desc;

注意：

1．distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后，余数相同的分到一个区。

2．Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 [大数据相关] Hive中的全排序：order by,sort by, distribute by Hive中order by sort by distribute by cluster by用法 hive中order by,sort by, distribute by, cluster by的用法 Hive分区 Hive分区和Hive动态分区 hive中order by、distribute by、sort by和cluster by的区别和联系 hive中order by,sort by, distribute by, cluster by作用以及用法 hive中order by ,sort by ,distribute by, cluster by 的区别（**很详细**） hive排序 hive 排序