pyspark列合并为一行

本文转载自查看原文 2018-12-29 16:09 1231 python

将 dataframe 利用 pyspark 列合并为一行，类似于 sql 的 GROUP_CONCAT 函数。例如如下 dataframe :

+----+---+
|   s|  d|
+----+---+
|abcd|123|
| asd|123|
+----+---+

需要按照列相同的列 d 将 s 合并，想要的结果为：

+---+-----------+
|  d|     newcol|
+---+-----------+
|123|[abcd, xyz]|
+---+-----------+

利用 groupby 去实现就好，spark 里面可以用 concat_ws 实现，可以看这个 Spark中SQL列合并为一行，而这里的 concat_ws 合并缺很奇怪，官方文档的实例为：

>>> df = spark.createDataFrame([('abcd','123')], ['s', 'd'])
>>> df.select(concat_ws('-', df.s, df.d).alias('s')).collect()
[Row(s=u'abcd-123')]

作者自己尝试得到：

from pyspark.sql import SparkSession
from pyspark.sql.functions import concat_ws

# 初始化spark会话
spark = SparkSession \
    .builder \
    .appName("test") \
    .master("local") \
    .getOrCreate()

df = spark.createDataFrame([('abcd','123'),('xyz','123')], ['s', 'd'])
df.show()
df.select(concat_ws('-', df.s, df.d).alias('newcol')).show()

+--------+
|  newcol|
+--------+
|abcd-123|
| xyz-123|
+--------+

不是想要的效果。而 collect_list 能得到相同的效果：

from pyspark.sql import SparkSession
from pyspark.sql.functions import concat_ws
from pyspark.sql.functions import collect_list

# 初始化spark会话
spark = SparkSession \
    .builder \
    .appName("test") \
    .master("local") \
    .getOrCreate()

df = spark.createDataFrame([('abcd','123'),('xyz','123')], ['s', 'd'])
df.show()
df.groupBy("d").agg(collect_list('s').alias('newcol')).show()

得到的结果为：

+---+-----------+
|  d|     newcol|
+---+-----------+
|123|[abcd, xyz]|
+---+-----------+

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 pandas列合并为一行 mysql多行多列合并为一行一列 Mysql将查出的一列数据合并为一行 SQL 将一列多行数据合并为一行 oracle 一对多表查询，根据某列值相同，多列合并为一行 sql 将查询结果为多行一列合并为一行一列多sql查询count合并为一行 linux 多行合并为一行 sqlServer 多行合并为一行 Dataframe 多行合并为一行