pyspark做透视表

本文转载自查看原文 2020-05-14 19:36 657 大数据框架

了解到 pivot()函数可以实现

尝试一：

df = spark.sql("""
sql语句
""")
df.show()

这里我想要（以下是通过excel表格的透视表实现的）

如何用pyspark实现？

df.pivot(index="avatar",columns="play_date",values="player_count")

　但是报错

原因分析：

通过 df = spark.sql("sql语句")，获取的dataframe和pandas中的dataframe不同，我测试了pandas中dataframe的属性

也就只有 df.dtypes; df.columns; df.show(); df.head()

尝试二：

df.pivot_table(index="avatar",columns="play_date",values="player_count")

　　仍然报同样的错误

尝试三：

解决方案：

查看spark.sql的文档，查找pivot()函数

现在尝试语句：

df.groupBy("avatar").pivot("play_date").sum("player_count").show() # 可以实现透视表

　　df.groupBy("index").pivot("columns").sum("values")

正确

以上需要确认 index， column 和 values的定义。

尝试四：

上述实验表明，通过 df = spark.sql("sql语句")，获取的dataframe和pandas中的dataframe不同

这个时候尝试将df做个转换

df.toPandas().pivot(index="avatar",columns="play_date",values="player_count").show()

pandas_df = df.toPandas()
ts_df = pandas_df.pivot(index="avatar",columns="play_date",values="player_count")
ts_df.show()   #没有show属性
ts_df.collect() # 没有collect属性

　　均报错，尚不能解决！

主要原因是pandas.dataframe没有 .show()或者 .collect()的属性

如果用 .head()显示则可

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 通过sql做数据透视表，数据库表行列转换(pivot和Unpivot用法)（一）透视表与交叉表【技术分享：python 应用之一】如何使用 Python 对 Excel 做一份数据透视表 openpyxl刷新透视表 UiPath之数据透视表 cubeviewer 数据透视表 11、数据透视表—数据透视的前提【Excle数据透视表】如何复制数据透视表【Excle数据透视表】如何新建数据透视表样式【Excle数据透视表】如何重命名数据透视表