[Spark][Python]sortByKey 例子的繼續

RDD的collect() 作用是什么？

“[Spark][Python]sortByKey 例子”的繼續

In [20]: mydata004.collect()

Out[20]:
[[u'00001', u'sku933'],
[u'00001', u'sku022'],
[u'00001', u'sku912'],
[u'00001', u'sku331'],
[u'00002', u'sku010'],
[u'00003', u'sku888'],
[u'00004', u'sku411']]

In [22]: mydata004.count()
Out[22]: 7

In [23]: mydata005.count()
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-23-c1554a7ccdd7> in <module>()
----> 1 mydata005.count()

TypeError: count() takes exactly one argument (0 given)

In [24]: type(mydata005)
Out[24]: list

In [25]: type(mydata004)
Out[25]: pyspark.rdd.PipelinedRDD

經過對比發現：mydata005 是一個 list。
也就是說 collect 會返回一個列表。

如果在交互式環境中運行 <RDD>.collect ,會顯示這個RDD的所有元素的內容。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python中pass語句的作用是什么 Python中pass語句的作用是什么？ javap的作用是什么？軟件的作用是什么 MyBatis的作用是什么 Label的作用是什么？是怎么用的？ @Autowired的作用是什么？ label的作用是什么？是怎么用的？ ZooKeeper的作用是什么？ @RequestMapping的作用是什么？