pyspark列合並為一行

本文轉載自查看原文 2018-12-29 16:09 1231 python

將 dataframe 利用 pyspark 列合並為一行，類似於 sql 的 GROUP_CONCAT 函數。例如如下 dataframe :

+----+---+
|   s|  d|
+----+---+
|abcd|123|
| asd|123|
+----+---+

需要按照列相同的列 d 將 s 合並，想要的結果為：

+---+-----------+
|  d|     newcol|
+---+-----------+
|123|[abcd, xyz]|
+---+-----------+

利用 groupby 去實現就好，spark 里面可以用 concat_ws 實現，可以看這個 Spark中SQL列合並為一行，而這里的 concat_ws 合並缺很奇怪，官方文檔的實例為：

>>> df = spark.createDataFrame([('abcd','123')], ['s', 'd'])
>>> df.select(concat_ws('-', df.s, df.d).alias('s')).collect()
[Row(s=u'abcd-123')]

作者自己嘗試得到：

from pyspark.sql import SparkSession
from pyspark.sql.functions import concat_ws

# 初始化spark會話
spark = SparkSession \
    .builder \
    .appName("test") \
    .master("local") \
    .getOrCreate()

df = spark.createDataFrame([('abcd','123'),('xyz','123')], ['s', 'd'])
df.show()
df.select(concat_ws('-', df.s, df.d).alias('newcol')).show()

+--------+
|  newcol|
+--------+
|abcd-123|
| xyz-123|
+--------+

不是想要的效果。而 collect_list 能得到相同的效果：

from pyspark.sql import SparkSession
from pyspark.sql.functions import concat_ws
from pyspark.sql.functions import collect_list

# 初始化spark會話
spark = SparkSession \
    .builder \
    .appName("test") \
    .master("local") \
    .getOrCreate()

df = spark.createDataFrame([('abcd','123'),('xyz','123')], ['s', 'd'])
df.show()
df.groupBy("d").agg(collect_list('s').alias('newcol')).show()

得到的結果為：

+---+-----------+
|  d|     newcol|
+---+-----------+
|123|[abcd, xyz]|
+---+-----------+

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pandas列合並為一行 mysql多行多列合並為一行一列 Mysql將查出的一列數據合並為一行 SQL 將一列多行數據合並為一行 oracle 一對多表查詢，根據某列值相同，多列合並為一行 sql 將查詢結果為多行一列合並為一行一列多sql查詢count合並為一行 linux 多行合並為一行 sqlServer 多行合並為一行 Dataframe 多行合並為一行