hive排序

本文轉載自查看原文 2018-08-28 10:46 1118 hive

1、order by 會對輸入做全局排序，因此只有一個reducer，會導致當輸入規模較大時，需要較長的計算時間。

2、sort by不是全局排序，其在數據進入reducer前完成排序。因此，如果用sort by進行排序，並且設置mapred.reduce.tasks>1，則sort by只保證每個reducer的輸出有序，不保證全局有序。即每個文件是有序的。如果mapred.reduce.tasks=1,sort by結果和order by 一樣，一般sort by 不單獨使用，而是和distribute by 一起使用。

3、distribute by(字段)根據指定的字段將數據分到不同的reducer，且分發算法是hash散列常和sort by排序一起使用。

1）.distribute by負責把文件哈希散列到不同文件，sort by負責給不同文件進行排序。

2）.當然必須要設置set mareduce.job.reduces 數量，設置的reduces數量個數，就是實際hash散列的文件個數，因為hash 散列的是通過hash值與reduce個數取模決定存儲在哪個文件里的。所以如果不設置 reduces個數，即使distribute by+sort by結果還是和 order by結果一樣的。

4、Cluster by(字段) 除了具有Distribute by的功能外，還會對該字段進行類似sort by的排序。

因此，如果分桶和sort字段是同一個時，此時，cluster by = distribute by + sort by

分桶表的作用：最大的作用是用來提高join操作的效率；

（思考這個問題：

select a.id,a.name,b.addr from a join b on a.id = b.id;

如果a表和b表已經是分桶表，而且分桶的字段是id字段

做這個join操作時，還需要全表做笛卡爾積嗎？）

舉例說明：（也可用insert將查詢的結果導出文件）

1. order by全局排序

select * from em

where empno >7800

order by empno

limit 3;(顯示工號大於7800員工的最后三名。)

只是針對所有數據全局排序，全局排序只有一個reducer，效率低。運行慢。

2.sort by排序,為每個reducer產生一個排序文件

①設置 mapreduce.job.reduces 即reduce任務個數，如果為1跟order by 解果一樣。

set mapreduce.job.reduces; 回車以后顯示mapred.reduce.task的值

set mapreduce.job.reduces=3;臨時設置的值，一旦hive關閉重啟就沒用了。

②sort by是在reduce之間排序，

insert overwrite local directory '/home/wang/mydata/sort'

row format delimited fields terminated by '\t'

select empno,ename ,deptno from emp

sort by empno;

結果是3個文件夾，隨機分布的數據，然后給每個文件夾里的數據按empno進行了排序。

insert overwrite directory '/user/hive/'

row format delimited fields terminated by '\t'

select empno,ename ,deptno from emp

sort by empno //sort by (empno asc/dsc)

3.distributed 類似於mapreduce里的patition分區(根據指定值hash散列到不同文件)一般要結合sort by使用。

set mapreduce.job.reduces=3;

insert overwrite local directory '/home/wang/mydata/sort'

row format delimited fields terminated by '\t'

select empno,ename,deptno from emp

distribute by deptno

sort by empno

這里的輸出結果是sort下面三個文件夾，分別是三個部門員工的文件夾，且每個部門按工號排序

4.cluster by :除了具有Distribute by的分區的功能外，還會對該字段進行排序

當distribute和sort字段相同時，就是cluster by，即分區的字段和排序的字段相同

insert overwrite local directory '/home/wang/mydata/sort'

row format delimited fields terminated by '\t'

select empno,ename ,deptno from emp

distribute by deptno

sort by deptno;

等價與（cluter可以用sort+distribute替換，但d+s，cluster不一定可以替換）

insert overwrite local directory '/home/robot/mydata/sort'

row format delimited fields terminated by '\t'

select empno,ename ,deptno from emp

cluster by depno;

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hive 排序 hive表查詢——排序 Hive排序函數 hive 全局排序 Hive中的排序語法 Hive中排序和聚集 hive四種排序 hive全局排序和局部排序 Hive_分區排序(Distribute By) Hive_內部排序(Sort By)