Spark排序之SortBy


sortBy函數源碼:接收三個參數,第一個參數必須,第二個和第三個參數非必要

def sortBy[K](  

     f: (T) => K,  

     ascending: Boolean = true,  

     numPartitions: Int = this.partitions.length)  

     (implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T] = withScope {  

this.keyBy[K](f)  

       .sortByKey(ascending, numPartitions)  

       .values  

 } 

1、例子1:按照value進行降序排序

package com.test.spark
import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author admin
  * SortBy是SortByKey的增強版
  * 按照value進行排序
  */
object SparkSortByApplication {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("SortSecond").setMaster("local[1]")
    val sc = new SparkContext(conf)
    val datas = sc.parallelize(Array(("cc",12),("bb",32),("cc",22),("aa",18),("bb",16),("dd",16),("ee",54),("cc",1),("ff",13),("gg",32),("bb",4)))
    // 統計key出現的次數
    val counts = datas.reduceByKey(_+_)
    // 按照value進行降序排序
    val sorts = counts.sortBy(_._2,false)
    sorts.collect().foreach(println)
  sc.stop() } }

 輸出結果:

(ee,54)
(bb,52)
(cc,35)
(gg,32)
(aa,18)
(dd,16)
(ff,13)

 

2、例子2:先按照第一個元素升序排序,如果第一個元素相同,再進行第三個元素進行升序排序

package com.sudiyi.spark
import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author xubiao
  * SortBy是SortByKey的增強版
  * 先按照第一個,再按照第三個元素進行升序排序
  */
object SparkSortByApplication {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("SortSecond").setMaster("local[1]")
    val sc = new SparkContext(conf)
    val arr = Array((1, 6, 3), (2, 3, 3), (1, 1, 2), (1, 3, 5), (2, 1, 2))
    val datas2 = sc.parallelize(arr)
    val sorts2 = datas2.sortBy(e => (e._1,e._2))
    sorts2.collect().foreach(println)

    sc.stop()

  }

}

 輸出結果:

(1,1,2)
(1,3,5)
(1,6,3)
(2,1,2)
(2,3,3)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM