一、讀取csv文件
1.用pandas讀取
import pandas as pd from pyspark.sql import SparkSession spark=SparkSession.builder.appName("test").getOrCreate() f=pd.read_csv("filePath") df=spark.createDataFrame(f)
但是pandas和spark數據轉換的時候速度很慢,所以不建議這么做
2.直接讀取
spark.read.format("csv").options(header="True",sep=",",encoding="utf-8",inferschema='true').load("path")
