Pandas dataframe 和 spark dataframe 转换

本文转载自查看原文 2021-10-29 12:12 1029 python/ 博客/ spark

想要随意的在pandas 和spark 的dataframe之间进行转换，list类型是关键，因为想要创建pandas的dataframe，方法之一就是使用list类型的data进行创建，而如果要创建spark的dataframe， list也是一种方法。

所以呢，下面的代码我添加了一些注释，方便使用。

import pandas as pd
from pyspark.sql.session import SparkSession
#初始化spark
spark=SparkSession.builder.appName("test").getOrCreate()
#sc=spark.sparkContext
#初始化一个pandas的dataframe
ll=pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
print(ll)
#将pandas的dataframe转换为list类型，即就是只保留dataframe的数据部分。
out=ll.values.tolist()
print(out)
#通过list 创建对应的spark dataframe
df=spark.createDataFrame(out,['a','b'])
df.show()

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 pandas和spark的dataframe互转 spark dataframe 转换 json Spark与Pandas中DataFrame对比 spark-DataFrame之RDD和DataFrame之间的转换 spark dataframe 转换为json spark dataframe 类型转换 spark streaming向RDD和DataFrame转换 Spark RDD转换为DataFrame spark-DataFrame之RDD和DataFrame之间的转换（scala） Spark DataFrame及RDD与DataSet转换成DataFrame