spark 先groupby 再從每個group里面選top n

本文轉載自查看原文 2020-07-30 09:37 889 spark

  import spark.implicits._

  val simpleData = Seq(("James","Sales","NY",90000,34,10000),
    ("Michael","Sales","NY",86000,56,20000),
    ("Robert","Sales","CA",81000,30,23000),
    ("Maria","Finance","CA",90000,24,23000),
    ("Raman","Finance","CA",99000,40,24000),
    ("Scott","Finance","NY",83000,36,19000),
    ("Jen","Finance","NY",79000,53,15000),
    ("Jeff","Marketing","CA",80000,25,18000),
    ("Kumar","Marketing","NY",91000,50,21000)
  )
  val df = simpleData.toDF("employee_name","department","state","salary","age","bonus")
  df.show()

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions.Window


// Window definition
val w = Window.partitionBy($"department").orderBy(desc("bonus"))

// Filter
var df_1 = df.withColumn("rank", rank.over(w)).where($"rank" <= 2)

df_1.show()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark 按照key 分組然后統計每個key對應的最大、最小、平均值思路——使用groupby，或者reduceby Spark scala groupBy后求和 hive top n 在Powershell中使用Group-Object和-GroupBy mysql實現復雜groupby : GROUP_CONCAT Spark中groupBy groupByKey reduceByKey的區別 Mysql-group先分組后排序 MySQL查詢top N記錄從MongoDB里面取得json格式的數據，然后存為本地的json文件，然后再從json讀取變為dict Spark：group by和聚合函數使用