[學習筆記]
/*reduceByKey(function)
reduceByKey就是對元素為KV對的RDD中Key相同的元素的Value進行function的reduce操作(如前所述),因此,Key相同的多個元素的值被reduce為一個值,然后與原RDD中的Key組成一個新的KV對。
reduceByKey(_+_)是reduceByKey((x,y) => x+y)的一個 簡潔的形式
*/
val rdd08 = sc.parallelize(List((1, 1), (1, 4),(1, 3), (3, 7), (3, 5)))
val rdd08_1 = rdd08.reduceByKey((x, y) => x + y)
println("reduceByKey 用法 " + rdd08_1.collect().mkString(","))
sc.stop()
}
def myunion(rdd05: RDD[Int], rdd06: RDD[Int]): Unit = {
val res: RDD[Int] = rdd05.union(rdd06)
collect: 收集一個彈性分布式數據集的所有元素到一個數組中,這樣便於我們觀察,畢竟分布式數據集比較抽象。Spark的collect方法,是Action類型的一個算子,會從遠程集群拉取數據到driver端。最后,將大量數據
匯集到一個driver節點上,將數據用數組存放,占用了jvm堆內存,非常用意造成內存溢出,只用作小型數據的觀察。*/
val arr = res.collect();
println("arr(0) is " + arr(0) + " arr(2) is " + arr(2) + " arr(4) is " + arr(4));
}
}
文章轉載自原文:https://blog.csdn.net/qq_44596980/article/details/93311813