hive 中窗口函數row_number,rank,dense_ran,ntile分析函數的用法

本文轉載自查看原文 2016-11-10 17:34 21640 hive/ hive_rank

hive中一般取top n時，row_number(),rank,dense_ran()這三個函數就派上用場了，

先簡單說下這三函數都是排名的，不過呢還有點細微的區別。

通過代碼運行結果一看就明白了。

示例數據：

sql語句

select id,
name,
sal,
rank()over(partition by name order by sal desc ) rp,
dense_rank() over(partition by name order by sal desc ) drp,
row_number()over(partition by name order by sal desc) rmp
from f_test

結果

10    b    17    1    1    1
3    b    13    2    2    2
4    b    12    3    3    3
8    b    11    4    4    4
9    a    16    1    1    1
6    a    15    2    2    2
11    a    14    3    3    3
5    a    14    3    3    4
7    a    13    5    4    5
2    a    12    6    5    6
1    a    10    7    6    7

從結果看出

rank() 排序相同時會重復，總數不會變

dense_rank()排序相同時會重復，總數會減少

row_number() 會根據順序計算

正好聽到一個需求，求sal前50%的人

用這個寫了一下，

select * from (
select id,
name,
sal,
rank()over(partition by name order by sal desc ) rp,
dense_rank() over(partition by name order by sal desc ) drp,
row_number()over(partition by name order by sal desc) rmp, 
count(*)over(partition by name) *0.5 as count
from f_test
) t where t.rp <t.count;

感覺雖然可以實現，但是有點復雜，有沒有更好的方法實現呢

NTILE
NTILE(n)，用於將分組數據按照順序切分成n片，返回當前切片值
NTILE不支持ROWS BETWEEN，比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW)
如果切片不均勻，默認增加第一個切片的分布

上面那個例子正好可以用到這個

select * from (
select id,
name,
sal,
NTILE(2) over(partition by name order by sal desc ) rn
from f_test
) t where t.rn=1

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Hive學習之路（十四）Hive分析窗口函數(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK SQL窗口函數RANK(),Dense_Rank(）,row_number(),NTILE() SQL SERVER 常用窗口函數RANK、DENSE_RANK、NTILE、ROW_NUMBER hive中一般取top n時，row_number(),rank,dense_ran()常用三個函數 Oracle分析函數-排序排列（rank、dense_rank、row_number、ntile） MySQL8.0 ROW_NUMBER、RANK、DENSE_RANK窗口函數分組排序排名 SQL With As 用法Sql 四大排名函數（ROW_NUMBER、RANK、DENSE_RANK、NTILE）簡介 SQL2005四個排名函數（row_number、rank、dense_rank和ntile）的比較 Oracle中排名排序函數，ROW_NUMBER、RANK、DENSE_RANK、NTILE Sql 四大排名函數（ROW_NUMBER、RANK、DENSE_RANK、NTILE）簡介