hive实现全局排序使用sort by+order by还是直接使用order by表较好


如果数据量较小的话,直接使用order by即可 。实际场景中一般先使用sort by再使用order by效率更高一些 。

sort by只能保证在reduce内有序 。

hive实现全排序:

1.要么用order by,但这样默认了reducer个数为1,效率低下。

2.要么用sort by+order by,sort by过程可以设置reducer个数(n),order by过程用n个reducer的输出文件进行一次全排序,得到最终的结果。

参考:

https://blog.csdn.net/xxzhangx/article/details/105501015


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM