自定義實現spark的分區函數

本文轉載自查看原文 2016-11-11 19:54 3197 spark

有時自己的業務需要自己實現spark的分區函數

以下代碼是實現一個自定義spark分區的demo

實現的功能是根據key值的最后一位數字，寫到不同的文件

例如：

10寫入到part-00000

11寫入到part-00001

19寫入到part-00009

自定義分區:

import org.apache.spark.{Partitioner, SparkContext, SparkConf}

//自定義分區類，需繼承Partitioner類
class UsridPartitioner(numParts:Int) extends Partitioner{
  //覆蓋分區數
  override def numPartitions: Int = numParts
  
  //覆蓋分區號獲取函數
  override def getPartition(key: Any): Int = {
    key.toString.toInt%10
  }
}

object Test {
  def main(args: Array[String]) {
    val conf=new SparkConf()
    val sc=new SparkContext(conf)

    //模擬5個分區的數據
    val data=sc.parallelize(1 to 10,5)
    
    //根據尾號轉變為10個分區，分寫到10個文件
    data.map((_,1)).partitionBy(new UsridPartitioner(10)).saveAsTextFile("/chenm/partition")
  }
}

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark自定義分區器實現 Spark(九)【RDD的分區和自定義Partitioner】 Spark自定義排序與分區 Spark自定義分區(Partitioner) Spark自定義分區(Partitioner) Spark SQL：自定義函數(示例) Spark 學習（四）RDD自定義分區和緩存 Spark（十三）SparkSQL的自定義函數UDF與開窗函數 Spark基於自定義聚合函數實現【列轉行、行轉列】 freemarker實現自定義指令和自定義函數