Spark Python 索引頁

[Spark][Python]sortByKey 例子的繼續:

[Spark][Python]groupByKey例子

In [29]: mydata003.collect()

Out[29]:
[[u'00001', u'sku933'],
[u'00001', u'sku022'],
[u'00001', u'sku912'],
[u'00001', u'sku331'],
[u'00002', u'sku010'],
[u'00003', u'sku888'],
[u'00004', u'sku411']]

In [30]: mydata005=mydata003.groupByKey()

In [32]: mydata005.count()
Out[32]: 4

In [33]: mydata005.collect()
Out[33]:
[(u'00004', <pyspark.resultiterable.ResultIterable at 0x7fcebe436b10>),
(u'00001', <pyspark.resultiterable.ResultIterable at 0x7fcebe436850>),
(u'00003', <pyspark.resultiterable.ResultIterable at 0x7fcebe436050>),
(u'00002', <pyspark.resultiterable.ResultIterable at 0x7fcebe4361d0>)]

那么，對於這種：

(00004,sku411)
(00003,sku888)
(00003,sku022)
(00003,sku010)
(00003,sku594)
(00002,sku912)

理論上變成了這樣形式的：

(00002,[sku912,sku331])
(00001,[sku022,sku010,sku933])
(00003,[sku888,sku022,sku010,sku594])
(00004,[sku411])

我們如何把它們都打印輸出成如下的格式，我考慮需要用到函數，然后對RDD的每行的Value，看作list，再來遍歷。
（等待下次編寫）

00002
sku912
sku331

00001
sku022
sku010
sku933

00003
sku088
sku022
sku022
sku010
sku594

00004
sku411

Spark Python 索引頁

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark 例子groupByKey分組計算（九）groupByKey,reduceByKey,sortByKey算子-Java&Python版Spark spark groupByKey flatMapGroups初試 [Spark][Python]Spark Join 小例子【spark】常用轉換操作：reduceByKey和groupByKey [Spark][Python]DataFrame select 操作例子 [Spark][Python]DataFrame where 操作例子 [Spark][Python]DataFrame的左右連接例子 [Spark][Python]RDD flatMap 操作例子 [Spark][python]以DataFrame方式打開Json文件的例子

[Spark][Python]groupByKey例子

Spark Python 索引頁

[Spark][Python]sortByKey 例子 的繼續:

Spark Python 索引頁

免責聲明！

[Spark][Python]sortByKey 例子的繼續: