hive窗口函數LAG/LEAD


Qusetion:

有一張hive表test,三列分別是user_id, click_id, click_time,即用戶、點擊id、點擊時間。

需要計算用戶點擊時間差,就需要找到用戶每個點擊對應的最近一次點擊時間。

user1   A   1573001309214
user1    B    1573043128833
user1    C    1573043810520
user1    D    1573043929952
user1    E    1573043914374
user1    F    1572994687046
user1    G    1572994687915
user1    H    1573043779651
user2    I    1572995016055
user2    J    1573046856088
user2    K    1573046893571
user2    L    1572981865480
user2    M    1572995095611
user2    N    1572974591103

 

Answer:

select user_id, click_id, click_time, 

LAG(click_time, 1) OVER(PARTITION BY user_id ORDER BY click_time asc) AS last_click_time 

from test;

結果:最后一列就是用戶該次點擊對應的最近一次點擊時間。第一行F事件是user1的第一個點擊,所以沒有上一條。

 

解釋:

OVER(PARTITION BY user_id ORDER BY click_time asc) 

含義:按user_id 列分組,組內按click_time 列排序,asc 表示增序(desc 降序)

LAG函數用法

LAG(col,n,DEFAULT)  用於統計窗口內往上第n行。

col 參數是列名

n 參數是指窗口內當前行往上第n行

DEFAULT 參數為默認值(當往上第n行為NULL的時候取默認值,如果不指定,就是NULL)

 

LEAD函數用法

LEAD(col, n, DEFAULT),用於統計窗口內向下第n行

col 參數是列名

n 參數是指窗口內當前行向下第n行

DEFAULT 參數為默認值(當向下第n行為NULL的時候取默認值,如果不指定,就是NULL)

 例如,在test表中,取出每個點擊對應的后面的第2個點擊。

select user_id, click_id, click_time,

LEAD(click_time, 2) OVER(PARTITION BY user_id ORDER BY click_time asc) AS last_two_click_time

from test;

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM