Hive計算分位數

本文轉載自查看原文 2018-06-27 10:29 1829

參考鏈接1：https://blog.csdn.net/sinat_27339001/article/details/52189843

參考鏈接2：https://blog.csdn.net/haramshen/article/details/52668586

hive里面倒是有個percentile函數和percentile_approx函數，其使用方式為percentile(col, p)、percentile_approx(col, p)， $p \in (0, 1)$

p e r c e n t i l e_a p p r o x (c o l, a r r a y (0.05, 0.5, 0.95), 9999)

如果不放心的話，就給col再加個轉換：

p e r c e n t i l e_a p p r o x (c a s t (c o l a s d o u b l e), a r r a y (0.05, 0.5

其輸出結果長這樣：

[0.0, 4001.0, 4061.0]

沒法直接用啊！再加個轉換：

e x p l o d e (p e r c e n t i l e_a p p r o x (c a s t (c o l a s d o u b l e), a

輸出結果就長這樣了：

percentile
0
4001
4061

實際操作中，發現有時在計算分位數的時候mapper會卡在0%。
前面說過，如果distinct的值小於B，就會返回精確值，那么個人猜測是因為后台執行的過程是先做了一個select distinct limit B，然后排序得到分位數。如果distinct值特別多的情況下，僅僅是去重就是一個巨大的運算負擔，更別說排序了。而當把B從10000調到100的時候很快就能跑出來了

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 hive計算分位數 Python計算分位數 hive 分位數函數 percentile(col, p) Python四分位和中位數計算代碼四分位數計算以及使用pandas計算分位數 python pandas df.quantile 計算樣本的分位數計算生存曲線四分位數以及中位數的置信區間 a分位數與雙側a分位數 hive中split后計算最后指定位數的字段值（從后往前推的索引值）