hive grouping sets 实现原理

本文转载自查看原文 2018-09-24 13:05 897 HIVE

先下结论：

看了hive 1.1.0 grouping sets 实现（从源码及执行计划都可以看出与kylin实现不一样），（前提是可累加，如sum函数）他并没有像kylin一样先按照group by 全字段聚合再上卷。
hive实现就是无脑复制，可以理解成是 group by grouping sets 所有组合然后在union 起来（grouping sets会比后者少扫描grouping sets组合份原始数据。
tez和sparksql grouping sets之所以快可能是跟kylin实现差不多，先汇总再上卷来减少数据无脑复制成本，这个spark实现有空可以看看）

从执行计划就可以看出 hive grouping sets 实现相当于就一个stage，是做不到先聚合再上卷的。其实就是把原始数据复制grouping sets 组合份

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 hive中grouping sets的使用 Hive学习之路（十七）Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP SQL Server里Grouping Sets的威力 SQL SERVER 分组组合GROUPING SETS hive------ Group by、join、distinct等实现原理 Hive的原理和基本用法 hive的分桶原理 Hive架构和工作原理 HIVE高级(16):底层原理(1) Hive SQL底层执行原理 hive中count(distinct) 的原理