基于pyspark的mapreduce实现

本文转载自查看原文 2020-05-22 14:49 1032

假设有数据量T级名为data的RDD，需要做一些列动作，一般需要使用map-reduce，其中map阶段可以使用def函数或者lambda形式，返回新的RDD，reduce可以起到累加作用，例：

 1 from pyspark import SparkConf
 2 conf = SparkConf().setAppName('test')
 3 try:
 4     sc.stop()
 5 except:
 6     pass
 7 sc = SparkContext(conf = conf)
 8 
 9 data = ["hello", "world", "hello", "world"]
10 
11 rdd = sc.parallelize(data)
12 res_rdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
13 
14 res_rdd.first()

View Code

附常见操作API，map()对每一条rdd进行并行操作，reduce()、reduceByKey()计数，filter()过滤，join()、union()等

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 实现MapReduce sparksql---通过pyspark实现随机森林原理和PySpark实现 pyspark mapreduce (六) MapReduce实现去重 NullWritable的使用 mapreduce(1)--wordcount的实现 MapReduce实现Apriori算法 MapReduce实现数据去重矩阵乘法的MapReduce实现 MapReduce实现WordCount