1、order by 會對輸入做全局排序,因此只有一個reducer,會導致當輸入規模較大時,需要較長的計算時間。
2、sort by不是全局排序,其在數據進入reducer前完成排序。因此,如果用sort by進行排序,並且設置mapred.reduce.tasks>1,則sort by只保證每個reducer的輸出有序,不保證全局有序。即每個文件是有序的。如果mapred.reduce.tasks=1,sort by結果和order by 一樣,一般sort by 不單獨使用,而是和distribute by 一起使用。
3、distribute by(字段)根據指定的字段將數據分到不同的reducer,且分發算法是hash散列常和sort by排序一起使用。
1).distribute by負責把文件哈希散列到不同文件,sort by負責給不同文件進行排序。
2).當然必須要設置set mareduce.job.reduces 數量,設置的reduces數量個數,就是實際hash散列的文件個數,因為hash 散列的是通過hash值與reduce個數取模決定存儲在哪個文件里的。所以如果不設置 reduces個數,即使distribute by+sort by結果還是和 order by結果一樣的。
4、Cluster by(字段) 除了具有Distribute by的功能外,還會對該字段進行類似sort by的排序。
因此,如果分桶和sort字段是同一個時,此時,cluster by = distribute by + sort by
分桶表的作用:最大的作用是用來提高join操作的效率;
(思考這個問題:
select a.id,a.name,b.addr from a join b on a.id = b.id;
如果a表和b表已經是分桶表,而且分桶的字段是id字段
做這個join操作時,還需要全表做笛卡爾積嗎?)
舉例說明:(也可用insert將查詢的結果導出文件)
1. order by全局排序
select * from em
where empno >7800
order by empno
limit 3;(顯示工號大於7800員工的最后三名。)
只是針對所有數據全局排序,全局排序只有一個reducer,效率低。運行慢。
2.sort by排序,為每個reducer產生一個排序文件
①設置 mapreduce.job.reduces 即reduce任務個數 ,如果為1跟order by 解果一樣。
set mapreduce.job.reduces; 回車以后顯示mapred.reduce.task的值
set mapreduce.job.reduces=3;臨時設置的值,一旦hive關閉重啟就沒用了。
②sort by是在reduce之間排序,
insert overwrite local directory '/home/wang/mydata/sort'
row format delimited fields terminated by '\t'
select empno,ename ,deptno from emp
sort by empno;
結果是3個文件夾,隨機分布的數據,然后給每個文件夾里的數據按empno進行了排序。
insert overwrite directory '/user/hive/'
row format delimited fields terminated by '\t'
select empno,ename ,deptno from emp
sort by empno //sort by (empno asc/dsc)
3.distributed 類似於mapreduce里的patition分區(根據指定值hash散列到不同文件)一般要結合sort by使用。
set mapreduce.job.reduces=3;
insert overwrite local directory '/home/wang/mydata/sort'
row format delimited fields terminated by '\t'
select empno,ename,deptno from emp
distribute by deptno
sort by empno
這里的輸出結果是sort下面三個文件夾,分別是三個部門員工的文件夾,且每個部門按工號排序
4.cluster by :除了具有Distribute by的分區的功能外,還會對該字段進行排序
當distribute和sort字段相同時,就是cluster by,即分區的字段和排序的字段相同
insert overwrite local directory '/home/wang/mydata/sort'
row format delimited fields terminated by '\t'
select empno,ename ,deptno from emp
distribute by deptno
sort by deptno;
等價與(cluter可以用sort+distribute替換,但d+s,cluster不一定可以替換)
insert overwrite local directory '/home/robot/mydata/sort'
row format delimited fields terminated by '\t'
select empno,ename ,deptno from emp
cluster by depno;