hive全局排序和局部排序

本文轉載自查看原文 2020-12-31 10:53 419 hive

經典需求：數據量大，不能用orderby進行全局排序，但是需求就是要全局排序

思路：參照hbase的設計范圍分區+局部有序 (distribute by sort by +指定范圍)

如果采樣了1G的數據，想分成10個分區

1.從0讀到100M的時候，把第100m位置的那條記錄，分桶字段拿出來

2.100M-200M的區間范圍

...

一定能確定每個區間的分桶字段的起始方位

如何做采樣

set mapreduce.job.reduces=3;
select * from student distribute by (case when age>20 then 0 when age > 18 then 1 else 2 end) sort by age desc;

distribute by :分桶查詢，條件：必須設置reduce的個數 set mapreduce.job.reduces=4; 查詢中必須設置distribute by 設置分桶規則，默認是hash 散列
cluster by : 如果sort by 和distribute by 的字段一致就可以設置cluster by

結果得到了四段有序的結果集，分區是按照數值/分區數，余數相同的為同一個分區

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hive 全局排序 Vue 全局過濾和局部過濾 npm 全局安裝和局部安裝的區別 vue組件全局注冊和局部注冊 VUE注冊全局組件和局部組件 Vue組件全局注冊和局部注冊 vue中全局filter和局部filter怎么用? Feign全局配置和局部配置 maven設置全局和局部jdk版本 vue 組件全局注冊和局部注冊