sparksql 分析类函数之分组排名 rank() over, dense_rank(), row_number()


1 假设现在有一张学生表student,学生表中有姓名、分数、课程编号,现在我需要按照课程对学生的成绩进行排序。

select * from student

2 rank over ()可以实现对学生排名,特点是成绩相同的两名是并列,如下1 2 2 4 5

select name,course,rank() over(partition by course order by score desc) as rank from student;

3 dense_rank()和rank over()很像,但学生成绩并列后并不会空出并列所占的名次,如下1 2 2 3 4

select name,course,dense_rank() over(partition by course order by score desc) as rank from student;

4 row_number这个函数不需要考虑是否并列,那怕根据条件查询出来的数值相同也会进行连续排名
select name,course,row_number() over(partition by course order by score desc) as rank from student;

tips:
1、partition by用于给结果集进行分区。
2、partition by和group by有何区别?
3、partition by只是将原始数据进行名次排列(记录数不变)
4、group by是对原始数据进行聚合统计(记录数可能变少, 每组返回一条)
5、使用rank over()的时候,空值是最大的,如果排序字段为null, 可能造成null字段排在最前面,影响排序结果。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM