pyspark 通過list 構建rdd

本文轉載自查看原文 2019-03-07 22:14 1007

from pyspark import SparkContext ,SparkConf

conf=SparkConf().setAppName("miniProject").setMaster("local[4]")
#conf=SparkConf().setAppName("lg").setMaster("spark://192.168.10.182:7077")
sc = SparkContext(conf=conf)

#b=sc.parallelize([0, 2, 3, 4, 6], 5).glom().collect()

data = list(range(10**4))
distData = sc.parallelize(data)
打印rdd
print(distData.collect())

reduce=distData.reduce(lambda a, b: a + b)

print(reduce)


#rdd = sc.parallelize(range(1, 4)).map(lambda x: (x, "a" * x))
#
##rdd.saveAsSequenceFile("path/to/file")
#
#print(sorted(sc.sequenceFile("path/to/file").collect()))
sc.stop()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pyspark 讀取本txt 構建RDD pyspark的RDD代碼紀錄 PySpark之RDD操作 4 pyspark學習---RDD pyspark獲取和處理RDD數據 pyspark——Rdd與DataFrame相互轉換學習隨筆--pyspark RDD常用操作（2）pyspark建立RDD以及讀取文件成dataframe pyspark創建RDD數據、RDD轉DataFrame以及保存 [Spark][pyspark]cache persist checkpoint 對RDD與DataFrame的使用記錄