pyspark之常用算子

本文轉載自查看原文 2020-08-14 21:23 585 pyspark

rdd=sc.paralelize([1,2,3,4,5])
#查看分區數
rdd.getNumPartitions()
輸出：4
#數據按照分區形式打印
rd.glom().collect()
輸出：[[1],[2],[3],[4,5]]

1、map和flatMap

2、reduce、fold、aggregate

（1）reduce

這里是兩種方式，輸出是：15

（2）fold

x：初始聚合值，y：當前元素，zero的值就是初始聚合值，初始聚合值的類型決定了最后返回的類型。

最終輸出：13

（3） aggregate

第二行輸出：[[2,4],[6,1]]

最后輸出：13

3、filter, distinct

第二行結果：[1,2,3,2,3,4,3,4,5,4,5,6,5,6,7]

第四行結果：[2,2,4,4,6,6]

第五行結果：[1,2,3,4,5,6,7]

4、交集insersection、並集union、排序sortBy

5、PairRDD的算子

groupByKey、reduceByKey、aggregateByKey

reduceByKeyLocally：

返回的就不是rdd格式的了，返回一個字典。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pyspark(一) 常用的轉換操作 SparkCore的常用算子 pyspark dataframe 常用操作 Pyspark常用API總結 Spark常用算子詳解 spark常用算子總結 Flink常用API算子 Spark 常用Action算子 spark常用的算子總結（8）—— filter Halcon常用算子實例匯總-掌握這些算子是必須的