Qusetion:
有一張hive表test,三列分別是user_id, click_id, click_time,即用戶、點擊id、點擊時間。
需要計算用戶點擊時間差,就需要找到用戶每個點擊對應的最近一次點擊時間。
user1 A 1573001309214
user1 B 1573043128833
user1 C 1573043810520
user1 D 1573043929952
user1 E 1573043914374
user1 F 1572994687046
user1 G 1572994687915
user1 H 1573043779651
user2 I 1572995016055
user2 J 1573046856088
user2 K 1573046893571
user2 L 1572981865480
user2 M 1572995095611
user2 N 1572974591103
Answer:
select user_id, click_id, click_time,
LAG(click_time, 1) OVER(PARTITION BY user_id ORDER BY click_time asc) AS last_click_time
from test;
結果:最后一列就是用戶該次點擊對應的最近一次點擊時間。第一行F事件是user1的第一個點擊,所以沒有上一條。
解釋:
OVER(PARTITION BY user_id ORDER BY click_time asc)
含義:按user_id 列分組,組內按click_time 列排序,asc 表示增序(desc 降序)
LAG函數用法
LAG(col,n,DEFAULT) 用於統計窗口內往上第n行。
col 參數是列名
n 參數是指窗口內當前行往上第n行
DEFAULT 參數為默認值(當往上第n行為NULL的時候取默認值,如果不指定,就是NULL)
LEAD函數用法
LEAD(col, n, DEFAULT),用於統計窗口內向下第n行
col 參數是列名
n 參數是指窗口內當前行向下第n行
DEFAULT 參數為默認值(當向下第n行為NULL的時候取默認值,如果不指定,就是NULL)
例如,在test表中,取出每個點擊對應的后面的第2個點擊。
select user_id, click_id, click_time,
LEAD(click_time, 2) OVER(PARTITION BY user_id ORDER BY click_time asc) AS last_two_click_time
from test;