一、背景
留存率:是用戶分析的核心指標之一。它也是經典的AARRR模型(海盜模型)中就有一個重要節點——留存(Acquisition)。留存率的計算也是用戶分析模型的計算基礎,那么如何在數據庫中用SQL實現呢?
二、什么是留存率?
常見的留存率有次日留存、三日留存、7日留存、14日留存、30日留存、90日留存等等,不同產品用戶行為的頻率是有差別的,留存率的設定也應該視不同產品而定,有些低頻的產品用周或月的顆粒度就夠了。
留存率計算邏輯:
假如某日新增了100個用戶,第二天登錄了50個,則次日留存率為50/100=50%,第三天登錄了30個,則第二日留存率為30/100=30%,以此類推,第7天登錄了10個用戶,則7日留存率就是10/100=10%。
以12月1日的新增用戶為例,如果12月2日也登錄了,就算做次日留存;如果12月3日又登錄了,就算做三日留存;12月6日再次登錄,就算作7日留存。
三、SQL實現
1、數據說明
計算留存率只需要2個字段:用戶ID (user_id) 和 登錄日期 (login_time)
- t_user_login:表名
- user_id: 用戶id,也可用設備ID等
- login_time:登錄日期時間,例如:2020-05-25 16:03:05
2、實現步驟:
- 步驟一:從數據庫中提取user_id和login_time, 並計算 first_day, 用於存儲每個用戶ID最早登錄日期(最小日期);
- 步驟二:用登錄日期-最早登錄日期,得到每個登錄日期距離最早登錄日期的時間間隔,即留存日期;
- 步驟三:對不同留存日期的user_id進行匯總就是留存人數,除以首日登錄人數,就得到了不同留存時間的留存率。
3、SQL實現
SELECT log_day '日期', count( user_id_day0 ) '新增數量', count( user_id_day1 ) / count( user_id_day0 ) '次日留存率', count( user_id_day2 ) / count( user_id_day0 ) '3日留存率', count( user_id_day7 ) / count( user_id_day0 ) '7日留存率', count( user_id_day30 ) / count( user_id_day0 ) '30日留存率' FROM ( SELECT DISTINCT log_day, a.user_id_day0, b.user_id AS user_id_day1, c.user_id AS user_id_day3, d.user_id AS user_id_day7, e.user_id AS user_id_day30 FROM ( SELECT DISTINCT Date( login_time ) AS log_day, user_id AS user_id_day0 FROM t_user_login GROUP BY user_id ORDER BY log_day ) a LEFT JOIN t_user_login b ON DATEDIFF( DATE( b.login_time ), a.log_day ) = 1 AND a.user_id_day0 = b.user_id LEFT JOIN t_user_login c ON DATEDIFF( date( c.login_time ), a.log_day ) = 2 AND a.user_id_day0 = c.user_id LEFT JOIN t_user_login d ON datediff( date( d.login_time ), a.log_day ) = 7 AND a.user_id_day0 = d.user_id LEFT JOIN t_user_login e ON datediff( date( e.login_time ), a.log_day ) = 30 AND a.user_id_day0 = e.user_id ) temp GROUP BY log_day
第二種方式
select aa.date(login_time) 日期, aa.活躍用戶數, aa.次日留存用戶數, aa.三日留存用戶數, aa.七日留存用戶數, concat(round(100 * 次日留存用戶數/活躍用戶數, 2), '%') 次日留存率, concat(round(100 * 三日留存用戶數/活躍用戶數, 2), '%') 三日留存率, concat(round(100 * 七日留存用戶數/活躍用戶數, 2), '%') 七日留存率 from ( select a.date(login_time) 日期, count(distinct a.user_id) as 活躍用戶數, count(distinct b.user_id) as 次日留存用戶數, count(distinct c.user_id) as 三日留存用戶數, count(distinct d.user_id) as 七日留存用戶數 from t_user_login a left join act_user_info b on a.user_id = b.user_id and b.date(login_time) = a.date(login_time) + 1 left join act_user_info c on a.user_id = c.user_id and c.date(login_time) = a.date(login_time) + 3 left join act_user_info d on a.user_id = d.user_id and d.date(login_time) = a.date(login_time) + 7 group by a.date(login_time) ) aa;
代碼親測有效,但數據計算的過程耗時較長,如果有更高效的實現方式,也你的歡迎分享。