用over進行開窗 distribute by sort by和partition by order by 用於去重哪個效率比較高?


1.用over開窗時,distribute by sort by換成partition by order by,分區表、分桶表、非分區表的執行計划都一樣,1.10版本都是一樣的--測試后時間上基本無差別
2.對分桶表進行測試,如果分桶的字段和distribute by sort by或者partition by order by是同一字段的話,分桶表的性能比較非分桶表好:這個比較好理解,本來分桶后數據就是局部有序的
3.單獨使用order只產生一個reducer(全局排序),sort(局部排序)產生多個reducer;
4.distribute by col – 按照col列把數據分散到不同的reduce,
group by把相同key的數據聚集到一起,后續必須是聚合操作,partition by 是分區
5.distribute by sort by 等同於cluster by ;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM