hive 排序

本文轉載自查看原文 2019-10-23 20:14 993 Hive

Order by：全局排序，只有一個reducer

ASC（ascend）：升序（默認）

DESC（descend）：降序

sort By：對於大規模的數據集order by的效率非常低。在很多情況下，並不需要全局排序，此時可以使用sort by

Sort By為每個Reducer產生一個排序文件。每個Reducer內部進行排序，對全局結果集來說不是排序。

（1）設置reduce個數

hive (default)> set mapreduce.job.reduces=3;

（2）根據部分編號降序查看員工信息

hive (default)> select * from emp sort by empno desc;

Distribute By：在某些情況下，我們需要控制某個特定行應該到哪個Reducer，通常是為了后續的聚集操作。

Distribute by類似MR中partition（自定義分區），進行分區，結合sort by使用

測試時要分配多個reduce進行處理，否則無法看到Distribute by的效果

 set mapreduce.job.reduces=3;

注意：

當Distribute by 和sort by 字段相同時，可以使用cluster by 方式

cluster by除了具有distribute by的功能外還兼具sort by的功能。但是排序只能是升序排序，不能指定排序規則為ASC或者DESC。

1）以下兩種寫法等價

hive (default)> select * from emp cluster by deptno;

hive (default)> select * from emp distribute by deptno sort by deptno;

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hive排序 hive表查詢——排序 Hive排序函數 hive 全局排序 Hive中的排序語法 Hive中排序和聚集 hive四種排序 hive全局排序和局部排序 Hive_分區排序(Distribute By) Hive_內部排序(Sort By)