sql语句中对单个字段去重,distinct和group by性能分析


distinct简单来说就是用来去重的,而group by的设计目的则是用来聚合统计的,两者在能够实现的功能上有些相同之处,但是2者的性能差距很大

对于一个84万数据量的表,count(distinct(XXX))的查询需要20s,而group by仅需1s,性能相差20倍

原理分析:

distinct方式就是两两对比,需要遍历整个表,大多数情况下都会导致对最终结果集进行一次排序;

group by分组类似先建立索引再查索引,所以两者对比,小表distinct快,不用索引。大表group by快。一般来说小表就算建索引,也不会慢到哪儿去;但如果是TB级大表,遍历简直就是灾难。

所以distinct一直是sql语言中成本最高的函数之一,很多Oracle项目都禁止使用distinct语句,全部要求替换成group by。

-->原博文出处


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM