七日留存率-SQL實現


一、背景

留存率:是用戶分析的核心指標之一。它也是經典的AARRR模型(海盜模型)中就有一個重要節點——留存(Acquisition)。留存率的計算也是用戶分析模型的計算基礎,那么如何在數據庫中用SQL實現呢?

二、什么是留存率?

常見的留存率有次日留存、三日留存、7日留存、14日留存、30日留存、90日留存等等,不同產品用戶行為的頻率是有差別的,留存率的設定也應該視不同產品而定,有些低頻的產品用周或月的顆粒度就夠了。

留存率計算邏輯:

假如某日新增了100個用戶,第二天登錄了50個,則次日留存率為50/100=50%,第三天登錄了30個,則第二日留存率為30/100=30%,以此類推,第7天登錄了10個用戶,則7日留存率就是10/100=10%。

以12月1日的新增用戶為例,如果12月2日也登錄了,就算做次日留存;如果12月3日又登錄了,就算做三日留存;12月6日再次登錄,就算作7日留存。

 

三、SQL實現

1、數據說明

計算留存率只需要2個字段:用戶ID (user_id) 和 登錄日期 (login_time)

  • t_user_login:表名
  • user_id: 用戶id,也可用設備ID等
  • login_time:登錄日期時間,例如:2020-05-25 16:03:05

2、實現步驟:

  • 步驟一:從數據庫中提取user_id和login_time, 並計算 first_day, 用於存儲每個用戶ID最早登錄日期(最小日期);
  • 步驟二:用登錄日期-最早登錄日期,得到每個登錄日期距離最早登錄日期的時間間隔,即留存日期;
  • 步驟三:對不同留存日期的user_id進行匯總就是留存人數,除以首日登錄人數,就得到了不同留存時間的留存率。

3、SQL實現

SELECT
    log_day '日期',
    count( user_id_day0 ) '新增數量',
    count( user_id_day1 ) / count( user_id_day0 ) '次日留存率',
    count( user_id_day2 ) / count( user_id_day0 ) '3日留存率',
    count( user_id_day7 ) / count( user_id_day0 ) '7日留存率',
    count( user_id_day30 ) / count( user_id_day0 ) '30日留存率' 
FROM
    (
    SELECT DISTINCT
        log_day,
        a.user_id_day0,
        b.user_id AS user_id_day1,
        c.user_id AS user_id_day3,
        d.user_id AS user_id_day7,
        e.user_id AS user_id_day30 
    FROM
        ( SELECT DISTINCT 
                Date( login_time ) AS log_day, 
                user_id AS user_id_day0 
                FROM 
                t_user_login 
                GROUP BY user_id 
                ORDER BY log_day 
                ) a
        LEFT JOIN t_user_login b ON DATEDIFF( DATE( b.login_time ), a.log_day ) = 1 
        AND a.user_id_day0 = b.user_id
        LEFT JOIN t_user_login c ON DATEDIFF( date( c.login_time ), a.log_day ) = 2 
        AND a.user_id_day0 = c.user_id
        LEFT JOIN t_user_login d ON datediff( date( d.login_time ), a.log_day ) = 7
        AND a.user_id_day0 = d.user_id
        LEFT JOIN t_user_login e ON datediff( date( e.login_time ), a.log_day ) = 30 
        AND a.user_id_day0 = e.user_id 
    ) temp 
GROUP BY
    log_day

第二種方式

select  aa.date(login_time) 日期,
    aa.活躍用戶數,
    aa.次日留存用戶數,
    aa.三日留存用戶數,
    aa.七日留存用戶數, 
    concat(round(100 * 次日留存用戶數/活躍用戶數, 2), '%') 次日留存率,
    concat(round(100 * 三日留存用戶數/活躍用戶數, 2), '%') 三日留存率,
    concat(round(100 * 七日留存用戶數/活躍用戶數, 2), '%') 七日留存率
from (
    select a.date(login_time) 日期,
        count(distinct a.user_id) as 活躍用戶數,
        count(distinct b.user_id) as  次日留存用戶數,
        count(distinct c.user_id) as 三日留存用戶數,
        count(distinct d.user_id) as 七日留存用戶數
    from t_user_login a
    left join act_user_info b on a.user_id = b.user_id and b.date(login_time) = a.date(login_time) + 1
    left join act_user_info c on a.user_id = c.user_id and c.date(login_time) = a.date(login_time) + 3
    left join act_user_info d on a.user_id = d.user_id and d.date(login_time) = a.date(login_time) + 7
    group by a.date(login_time)
) aa;

代碼親測有效,但數據計算的過程耗時較長,如果有更高效的實現方式,也你的歡迎分享。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM