基於pyspark的mapreduce實現

本文轉載自查看原文 2020-05-22 14:49 1032

假設有數據量T級名為data的RDD，需要做一些列動作，一般需要使用map-reduce，其中map階段可以使用def函數或者lambda形式，返回新的RDD，reduce可以起到累加作用，例：

 1 from pyspark import SparkConf
 2 conf = SparkConf().setAppName('test')
 3 try:
 4     sc.stop()
 5 except:
 6     pass
 7 sc = SparkContext(conf = conf)
 8 
 9 data = ["hello", "world", "hello", "world"]
10 
11 rdd = sc.parallelize(data)
12 res_rdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
13 
14 res_rdd.first()

View Code

附常見操作API，map()對每一條rdd進行並行操作，reduce()、reduceByKey()計數，filter()過濾，join()、union()等

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 實現MapReduce sparksql---通過pyspark實現 MapReduce實現WordCount MapReduce實現單詞統計 MapReduce原理與實現 Python實現MapReduce,wordcount實例，MapReduce實現兩表的Join Python初次實現MapReduce——WordCount hadoop mapreduce實現數據去重 MapReduce 實現數據join操作 mapreduce-實現多表關聯