想要隨意的在pandas 和spark 的dataframe之間進行轉換,list類型是關鍵,因為想要創建pandas的dataframe,方法之一就是使用list類型的data進行創建,而如果要創建spark的dataframe, list也是一種方法。
所以呢,下面的代碼我添加了一些注釋,方便使用。
import pandas as pd from pyspark.sql.session import SparkSession #初始化spark spark=SparkSession.builder.appName("test").getOrCreate() #sc=spark.sparkContext #初始化一個pandas的dataframe ll=pd.DataFrame([[1,2],[3,4]],columns=['a','b']) print(ll) #將pandas的dataframe轉換為list類型,即就是只保留dataframe的數據部分。 out=ll.values.tolist() print(out) #通過list 創建對應的spark dataframe df=spark.createDataFrame(out,['a','b']) df.show()