[Spark][Python]sortByKey 例子的继续

RDD的collect() 作用是什么？

“[Spark][Python]sortByKey 例子”的继续

In [20]: mydata004.collect()

Out[20]:
[[u'00001', u'sku933'],
[u'00001', u'sku022'],
[u'00001', u'sku912'],
[u'00001', u'sku331'],
[u'00002', u'sku010'],
[u'00003', u'sku888'],
[u'00004', u'sku411']]

In [22]: mydata004.count()
Out[22]: 7

In [23]: mydata005.count()
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-23-c1554a7ccdd7> in <module>()
----> 1 mydata005.count()

TypeError: count() takes exactly one argument (0 given)

In [24]: type(mydata005)
Out[24]: list

In [25]: type(mydata004)
Out[25]: pyspark.rdd.PipelinedRDD

经过对比发现：mydata005 是一个 list。
也就是说 collect 会返回一个列表。

如果在交互式环境中运行 <RDD>.collect ,会显示这个RDD的所有元素的内容。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 软件的作用是什么 MyBatis的作用是什么 Label的作用是什么？是怎么用的？ @Autowired的作用是什么？ label的作用是什么？是怎么用的？ JMM是什么，作用是什么 python3中的print("\t",end = "")的作用是什么？怎么用？ java接口的作用是什么？什么是PKI?主要作用是什么？ android:contentDescription的作用是什么