Pandas dataframe 和 spark dataframe 轉換

本文轉載自查看原文 2021-10-29 12:12 1029 python/ 博客/ spark

想要隨意的在pandas 和spark 的dataframe之間進行轉換，list類型是關鍵，因為想要創建pandas的dataframe，方法之一就是使用list類型的data進行創建，而如果要創建spark的dataframe， list也是一種方法。

所以呢，下面的代碼我添加了一些注釋，方便使用。

import pandas as pd
from pyspark.sql.session import SparkSession
#初始化spark
spark=SparkSession.builder.appName("test").getOrCreate()
#sc=spark.sparkContext
#初始化一個pandas的dataframe
ll=pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
print(ll)
#將pandas的dataframe轉換為list類型，即就是只保留dataframe的數據部分。
out=ll.values.tolist()
print(out)
#通過list 創建對應的spark dataframe
df=spark.createDataFrame(out,['a','b'])
df.show()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 pandas和spark的dataframe互轉 spark dataframe 轉換 json Spark與Pandas中DataFrame對比 spark-DataFrame之RDD和DataFrame之間的轉換 spark dataframe 轉換為json spark dataframe 類型轉換 spark streaming向RDD和DataFrame轉換 Spark RDD轉換為DataFrame spark-DataFrame之RDD和DataFrame之間的轉換（scala） Spark DataFrame及RDD與DataSet轉換成DataFrame