如何统计连续打卡天数


  以下文章经过少量修改,主要来源于俊红的数据分析之路 ,作者张俊红,以及参考文献:https://mp.weixin.qq.com/s/sg7VbRkS5xmJJo8FI6Hcvg

今天来解一道题面试中可能经常会被一些面试官拿来“刁难”的题,就是《如何统计连续打卡天数》,当然了这里面的打卡可以换成任意其他行为,比如连续登陆天数,连续学习天数,连续购买天数,这里的天数也是可以换成小时或者别的时间单位的。这个问题的逻辑还是有点复杂,如果要是之前没遇到过这种问题,当场被问到的时候,肯定会一脸懵。

直接来看实战,现在有一张表t,这张表存储了每个员工每天的打卡情况,现在需要统计截止目前每个员工的连续打卡天数,表t如下表所示:

uid tdate is_flag
1 2020/2/1 1
1 2020/2/2 0
1 2020/2/3 1
1 2020/2/4 1
1 2020/2/5 0
1 2020/2/6 1
1 2020/2/7 1
1 2020/2/8 1
2 2020/2/1 1
2 2020/2/2 0
2 2020/2/3 0
2 2020/2/4 1
2 2020/2/5 1
2 2020/2/6 1
2 2020/2/7 1
2 2020/2/8 1

上表中uid是用户id,tdate是日期,is_flag是记录用户当天是否打卡,1为打卡,0为未打卡。

我们希望得到的结果为:

uid flag_days
1 3
2 5

这个逻辑还是挺难想的,第一个想法就是通过前后数据偏移来实现,就是将is_flag向前移动一行或者向后移动一行,然后和原来的is_flag标签做差,如果结果为0,说明前后两天的值是相同的,要么都是0,要么都是1。但是还是不能够得出我们想要的结果。

再换一种思路:如果是连续打卡,那么打卡日期与一个递增的数字依次做差的结果值应该是相等的,不理解这句话没关系,看具体结果你就明白了。

分析思路:

1.先筛选条件打卡is_flag=1,然后所有打了卡的用窗口函数按照用户id分组按时间排序

2.然后时间日期中的天与排序做差,得到的相同数字即为连续打卡

3.再聚合函数count(日期)一下,按连续打卡分组可得每段时间的连续打卡天数

4.接着就可随意查看最近的连续打卡天数,历史最高连续打卡天数,打卡天数大于某个数值的人

我们先获取每个用户在这一段时间内所有打卡的排名,是所有打卡的排名哦,利用的是窗口函数的row_number(),代码如下:

select  
    uid,
    tdate,
    row_number() over(partition by uid order by tdate) date_rank
from
    t
where is_flag=1

运行上面的代码,可以得到如下结果:

uid tdate date_rank
1 2020/2/1 1
1 2020/2/3 2
1 2020/2/4 3
1 2020/2/6 4
1 2020/2/7 5
1 2020/2/8 6
2 2020/2/1 1
2 2020/2/4 2
2 2020/2/5 3
2 2020/2/6 4
2 2020/2/7 5
2 2020/2/8 6

接着再获取每个打卡日期(tdate)中的日与其打卡日期排名(date_rank)之间的差,比如uid=1的2020/2/3的打卡日期中的3号与其排名(date_rank)2做差等于1,实现代码如下:

select 
    uid,
    tdate,
    date_rank,
    (date_format(tdate,"%e") - date_rank) as day_cha
from 
    (
    select  
        uid,
        tdate,
        row_number() over(partition by uid order by tdate) date_rank
    from
        demo.newtable
    where is_flag=1
    )t1

date_format() 函数:用于以不同的格式显示日期/时间数据。%e 输出为月的天数,数值(0-31)

时间日期其他函数还可参考https://www.cnblogs.com/lverkou/p/13055614.html

运行上面的代码,最后可以得到如下结果:

uid tdate date_rank day_cha
1 2020/2/1 1 0
1 2020/2/3 2 1
1 2020/2/4 3 1
1 2020/2/6 4 2
1 2020/2/7 5 2
1 2020/2/8 6 2
2 2020/2/1 1 0
2 2020/2/4 2 2
2 2020/2/5 3 2
2 2020/2/6 4 2
2 2020/2/7 5 2
2 2020/2/8 6 2

看上面的结果表,有没有看出点意思来,连续打卡日期的day_cha都是相等的,比如uid=1的2020/2/3和2020/2/4是连续的,他们的day_cha都是1。到这里,如果我们要获取连续打卡天数是不是就很容易了。

不过这里面还有一个问题,就是连续打卡天数是截止目前最近的一个 连续打卡天数还是历史坚持最长的打卡天数,这就是传说中的口径问题哈。虽然在我们这个例子里面,这两种打卡天数的出来的结果是一样的,但是有的时候会是不一样的,比如下面这样的例子:

uid tdate is_flag
1 2020/2/1 1
1 2020/2/2 0
1 2020/2/3 1
1 2020/2/4 1
1 2020/2/5 1
1 2020/2/6 0
1 2020/2/7 1
1 2020/2/8 1

上面这个例子中,最近连续打卡天数是2,历史最长的连续打卡天数却是3。

好了,我们继续回到解题上,我们先获取每个用户历史所有连续过得的打卡情况,实现代码如下:

select 
    uid,
    day_cha,
    count(tdate) flag_days     //后面分组后日期是不一样的,可以统计数量
from 
    (select 
    uid,
    tdate,
    date_rank,
    (date_format(tdate,"%e") - date_rank) as day_cha
from 
    (
    select  
        uid,
        tdate,
        row_number() over(partition by uid order by tdate) date_rank
    from
        demo.newtable
    where is_flag=1
    )t1
    )t2
group by 
    uid,
    day_cha;

运行上面的代码,得到如下结果:

uid day_cha flag_days
1 0 1
1 1 2
1 2 3
2 0 1
2 2 5

要获取最近的连续打卡天数,我们只需要把上表中day_cha这一列最大的值对应的flag_days取出来就可以;要获取历史最久的连续打卡天数,我们只需要把上表中flag_days的最大值取出来就可以。直接再来个子查询就好了。

类似的需求可能还有获取过去连续打卡天数大于某个值的人,只需要筛选上表中的flag_days即可达到目的。只要能够生成上面这样每个人历史所有连续打卡的情况表,那么大部分连续打卡相关的需求都可以通过上表来获得。

很经典的一道题,或者是一种业务场景,大家各自多多练习。

 

 

 

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM