pyspark reduceByKey、groupByKey、groupBy、keyBy、subtractByKey 使用

本文转载自查看原文 2021-04-28 23:44 262 reduceByKey/ groupByKey/ subtractByKey/ keyBy/ hadoop/ groupBy

reduceByKey、groupByKey

rdd=sc. parallelize([("one",1),("two",1),("one",1),("one1",1)])
rdd. reduceByKey(lambda x,y:x). count()
rdd1=sc. parallelize([("a",{"a":12}),("b",{"a1":45}),("a",{"a2":45})])
def fun(x):
    k,v=x
    d=dict()
    for i in v:d. update(i)
    return k,d
rdd1.groupByKey().map(lambda x:fun(x)).collect()
#[('a', {'a': 12, 'a2': 45}), ('b', {'a1': 45})]

groupBy、keyBy

rdd2=sc. parallelize([("a",{"a":13}),("b",{"a1":45}),("a",{"a2":45})])
def fun1(x):
    k,v=x
    d=dict()
    for i in v:d. update(i[1])
    return k,d
rdd2.groupBy(lambda x:x[0]).map(lambda x:fun1(x)). collect()
#[('a', {'a': 13, 'a2': 45}), ('b', {'a1': 45})]
rdd2.keyBy(lambda x:x[0]).collect()
#[('a', ('a', {'a': 13})), ('b', ('b', {'a1': 45})), ('a', ('a', {'a2': 45}))]

subtractByKey

x=sc. parallelize([("a",1),("b",4),("b",5),("a",2)])
y=sc. parallelize([("a",3),("c",None)])
x. subtractByKey(y). collect()
#[('b', 4), ('b', 5)]

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Spark中groupBy groupByKey reduceByKey的区别 reduceByKey和groupByKey的区别 Spark聚合操作-reduceByKey、groupByKey、combineBykey的使用与比较 laravel groupBy 和 keyBy的区别 groupbyKey和reducebyKey的区别 reduceByKey和groupByKey区别与用法 Spark中groupByKey、reduceByKey与sortByKey Spark中的reduceByKey()和groupByKey()的区别 spark RDD，reduceByKey vs groupByKey 【spark】常用转换操作：reduceByKey和groupByKey