hive grouping sets 實現原理

本文轉載自查看原文 2018-09-24 13:05 897 HIVE

先下結論：

看了hive 1.1.0 grouping sets 實現（從源碼及執行計划都可以看出與kylin實現不一樣），（前提是可累加，如sum函數）他並沒有像kylin一樣先按照group by 全字段聚合再上卷。
hive實現就是無腦復制，可以理解成是 group by grouping sets 所有組合然后在union 起來（grouping sets會比后者少掃描grouping sets組合份原始數據。
tez和sparksql grouping sets之所以快可能是跟kylin實現差不多，先匯總再上卷來減少數據無腦復制成本，這個spark實現有空可以看看）

從執行計划就可以看出 hive grouping sets 實現相當於就一個stage，是做不到先聚合再上卷的。其實就是把原始數據復制grouping sets 組合份

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hive中grouping sets的使用 hive grouping sets 等聚合函數 Hive SQL grouping sets 用法 hive grouping sets和GROUPING__ID的用法 hive grouping sets多維度報錯 Hive函數：GROUPING SETS,GROUPING__ID,CUBE,ROLLUP Hive學習之路（十七）Hive分析窗口函數(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP (轉) Hive中with cube、with rollup、grouping sets用法 Group By Grouping Sets TSQL 分組集（Grouping Sets）