pyspark使用-dataframe操作

本文转载自查看原文 2018-09-19 20:46 740

一、读取csv文件

1.用pandas读取

import pandas as pd
from pyspark.sql import SparkSession
spark=SparkSession.builder.appName("test").getOrCreate()
f=pd.read_csv("filePath")
df=spark.createDataFrame(f)

但是pandas和spark数据转换的时候速度很慢，所以不建议这么做

2.直接读取

spark.read.format("csv").options(header="True",sep=",",encoding="utf-8",inferschema='true').load("path")

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 pyspark dataframe 常用操作 pyspark的使用和操作(基础整理) PySpark—DataFrame笔记（3）pyspark----dataframe观察 pyspark dataframe api速览 PySpark Dataframe 添加新列【大数据】PySpark 使用 FileSystem 操作 HDFS pyspark dataframe 转 json 逐行输出 [spark][pyspark]拆分DataFrame中某列Array PySpark之RDD操作