hive排序


1、order by 會對輸入做全局排序,因此只有一個reducer,會導致當輸入規模較大時,需要較長的計算時間。
2、sort by不是全局排序,其在數據進入reducer前完成排序。因此,如果用sort by進行排序,並且設置mapred.reduce.tasks>1,則sort by只保證每個reducer的輸出有序,不保證全局有序。即每個文件是有序的。如果mapred.reduce.tasks=1,sort by結果和order by 一樣,一般sort by 不單獨使用,而是和distribute by 一起使用。
3、distribute by(字段)根據指定的字段將數據分到不同的reducer,且分發算法是hash散列常和sort by排序一起使用。
 1).distribute by負責把文件哈希散列到不同文件,sort by負責給不同文件進行排序。
 2).當然必須要設置set mareduce.job.reduces 數量,設置的reduces數量個數,就是實際hash散列的文件個數,因為hash 散列的是通過hash值與reduce個數取模決定存儲在哪個文件里的。所以如果不設置 reduces個數,即使distribute by+sort by結果還是和 order by結果一樣的。
4、Cluster by(字段) 除了具有Distribute by的功能外,還會對該字段進行類似sort by的排序。
     因此,如果分桶和sort字段是同一個時,此時,cluster by = distribute by + sort by
     分桶表的作用:最大的作用是用來提高join操作的效率;
   (思考這個問題:
           select a.id,a.name,b.addr from a join b on a.id = b.id;
          如果a表和b表已經是分桶表,而且分桶的字段是id字段
           做這個join操作時,還需要全表做笛卡爾積嗎?)
舉例說明:(也可用insert將查詢的結果導出文件)
1. order by全局排序
    select * from em
    where empno >7800
    order by empno
    limit 3;(顯示工號大於7800員工的最后三名。)
  只是針對所有數據全局排序,全局排序只有一個reducer,效率低。運行慢。
2.sort by排序,為每個reducer產生一個排序文件
  ①設置 mapreduce.job.reduces 即reduce任務個數 ,如果為1跟order by 解果一樣。
     set mapreduce.job.reduces; 回車以后顯示mapred.reduce.task的值
     set mapreduce.job.reduces=3;臨時設置的值,一旦hive關閉重啟就沒用了。
  ②sort by是在reduce之間排序,
     insert overwrite local directory '/home/wang/mydata/sort'
     row format delimited fields terminated by '\t'
     select empno,ename ,deptno from emp
     sort by empno;
   結果是3個文件夾,隨機分布的數據,然后給每個文件夾里的數據按empno進行了排序。
     insert overwrite directory '/user/hive/'
     row format delimited fields terminated by '\t'
     select empno,ename ,deptno from emp
     sort by empno //sort by (empno asc/dsc)
 
3.distributed 類似於mapreduce里的patition分區(根據指定值hash散列到不同文件)一般要結合sort by使用。
      set mapreduce.job.reduces=3;
      insert overwrite local directory '/home/wang/mydata/sort'
      row format delimited fields terminated by '\t'
      select empno,ename,deptno from emp
      distribute by deptno
      sort by empno
   這里的輸出結果是sort下面三個文件夾,分別是三個部門員工的文件夾,且每個部門按工號排序
4.cluster by :除了具有Distribute by的分區的功能外,還會對該字段進行排序
    當distribute和sort字段相同時,就是cluster by,即分區的字段和排序的字段相同
    insert overwrite local directory '/home/wang/mydata/sort'
    row format delimited fields terminated by '\t'
    select empno,ename ,deptno from emp
    distribute by deptno
    sort by deptno;
  等價與(cluter可以用sort+distribute替換,但d+s,cluster不一定可以替換)
    insert overwrite local directory '/home/robot/mydata/sort'
    row format delimited fields terminated by '\t'
    select empno,ename ,deptno from emp
    cluster by depno;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM