Spark排序之SortByKey


sortByKey函數作用於Key-Value形式的RDD,並對Key進行排序。

package com.test.spark
import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author admin
  *  SortByKey:sortByKey對於key是單個元素排序很簡單,
  *  如果key是元組如(X1,X2,X3.....),它會先按照X1排序,若X1相同,則在根據X2排序,依次類推...
  */
object SparkSortByKeyApplication {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("SortByKey-test")
    val sc = new SparkContext(conf)
    val arr = Array((1, 6, 3), (2, 3, 3), (1, 1, 2), (1, 3, 5), (2, 1, 2))
    val rdd1 = sc.parallelize(arr)
    // 設置元素(e1,e3)為key,value為原來的整體
    val rdd2 = rdd1.map(e => ((e._1, e._3), e))
    // 利用sortByKey排序的對key的特性
    val rdd3 = rdd2.sortByKey()
    val rdd4 = rdd3.values.collect
    rdd4.foreach(println)
  }
}

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM