Spark 累加器

本文转载自查看原文 2016-11-14 00:44 1791 累加器/ 构造器/ Spark

由于spark是分布式的计算，所以使得每个task间不存在共享的变量，而为了实现共享变量spark实现了两种类型 - 累加器与广播变量，

对于其概念与理解可以参考：共享变量(广播变量和累加器) 。可能需要注意：Spark累加器(Accumulator)陷阱及解决办法

因此，我们便可以利用累加器与广播变量来构造一些比较常用的关系，以Map的形式广播出去，提高效率。

如下通过累加器构造了一个DF数据间
的映射关系，

defgetMap(spark:SparkSession,data:DataFrame){
//通过collectionAccumulator构造Map关系
valmyAccumulator=spark.sparkContext.collectionAccumulator[(String,Long)]
data.foreach(
row=>{
valname=row.getAs[String]("name")
valage=row.getAs[Long]("age")
myAccumulator.add(name,age)
}
)
valaiterator:util.Iterator[(String,Long)]=myAccumulator.value.iterator()
varnewMap:Map[String,Long]=Map()
while(aiterator.hasNext){
vala=aiterator.next()
valkey=a._1
valvalue=a._2
if(!newMap.contains(key)){
newMap+=(key->value)
}
else{
valoldvalue=newMap(key)
newMap+=(key->(oldvalue+value))
}
}
}

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Spark笔记之累加器（Accumulator） Spark 广播变量和累加器累加器 Spark共享变量(广播变量、累加器) Spark2.0自定义累加器 spark2.1 自定义累加器的使用累加器A与ACC区别 Spark笔记整理（五）：Spark RDD持久化、广播变量和累加器 Spark RDD概念学习系列之rdd持久化、广播、累加器（十八）累加器配上委托也可以很吊