SparkSQL 數據分頁及Top N

本文轉載自查看原文 2020-05-29 17:53 2147 spark

在SparkSQL實踐中，取出滿足指定條件的數據並顯示，如果因為數據太多，必須要有分頁功能，一開始，想到的是select top N的方式，但測試過后，SparkSQL中並不支持這種語法，查了SparkSQL的幫助，spark支持類似mysql的limit語法，如下例所示，limit表示取出滿足條件的前N條記錄：

val df = spark.sql("select a, b from tb1 where a>100 limit 10")

但limit僅僅實現了非常簡單的類似top N的功能，還不能很好的查找某個區間范圍的記錄，比如分頁顯示，那還有什么其它方法嗎？

當然，還有更好的方法，在SparkSQL中，有一項更好的功能，row_number，這是一個窗口函數(window function)，從spark1.5版本引入，語法格式為：

row_number() over (partition by 'xx' order by 'yy' desc) rank

           具體含義為：根據表中字段進行分組（partition by），然后根據表中的字段排序（order by），對於每個分組，給每條記錄添加一個從1開始的行號 
         

如果不使用partition by語句，則表示對整個dataframe表添加行號

參考： Introducing Window Functions in Spark SQL

對此行號做分頁查詢，下面是一個例子：

val df3 = spark.sql("select Cusip, SecurityType, Share, rank from (select *,row_number() over (order by Date , AccountNumber desc) as rank from holding where Month = \"2000-06\") temp 
where 3 < rank and rank <= 9")

在上面sql中，取出的是滿足rank在某個區間的記錄，

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 SparkSQL讀取HBase數據大數據mapreduce全局排序top-N之python實現 python實現簡易數據庫之二——單表查詢和top N實現使用sparksql往kafka推送數據 sparksql jdbc數據源 MySQL獲取分組后的TOP 1和TOP N記錄 Hive中實現SELECT TOP N的方法 SQL Server 分組后取Top N MySQL中如何實現select top n SQL Server中的分頁查詢 select top