Spark Scala當中reduceByKey的用法

本文轉載自查看原文 2019-08-14 18:48 1764 Scala/ Spark Scala reduceByKey/ Spark

[學習筆記]

/*reduceByKey(function)
reduceByKey就是對元素為KV對的RDD中Key相同的元素的Value進行function的reduce操作(如前所述)，因此，Key相同的多個元素的值被reduce為一個值，然后與原RDD中的Key組成一個新的KV對。

reduceByKey(_+_)是reduceByKey((x,y) => x+y)的一個簡潔的形式
*/

    val rdd08 = sc.parallelize(List((1, 1), (1, 4),(1, 3), (3, 7), (3, 5)))
    val rdd08_1 = rdd08.reduceByKey((x, y) => x + y)
    println("reduceByKey 用法 " + rdd08_1.collect().mkString(","))

    sc.stop()
}

def myunion(rdd05: RDD[Int], rdd06: RDD[Int]): Unit = {
    val res: RDD[Int] = rdd05.union(rdd06)
  collect: 收集一個彈性分布式數據集的所有元素到一個數組中,這樣便於我們觀察，畢竟分布式數據集比較抽象。Spark的collect方法，是Action類型的一個算子，會從遠程集群拉取數據到driver端。最后，將大量數據
匯集到一個driver節點上，將數據用數組存放，占用了jvm堆內存，非常用意造成內存溢出，只用作小型數據的觀察。*/
    val arr = res.collect();
    println("arr(0) is " + arr(0) + " arr(2) is " + arr(2) + " arr(4) is " + arr(4));
}
}

文章轉載自原文：https://blog.csdn.net/qq_44596980/article/details/93311813

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 reduceByKey和groupByKey區別與用法 spark RDD，reduceByKey vs groupByKey Spark筆記-treeReduce、reduce、reduceByKey 【Spark】Spark-reduceByKey-深入理解 java實現spark常用算子之ReduceByKey Spark 學習筆記之 distinct/groupByKey/reduceByKey Spark中groupBy groupByKey reduceByKey的區別 scala spark 示例代碼 spark之scala快速入門（Spark）scala下載教程