Pyspark读取csv文件

本文转载自查看原文 2019-10-31 15:30 3051 Pyspark/ spark/ python相关文档/ csv/ pyspark

#_*_coding:utf-8_*_

# spark读取csv文件

#指定schema：
schema = StructType([
        # true代表不为null
        StructField("column_1", StringType(), True), # nullable=True, this field can not be null
        StructField("column_2", StringType(), True),
        StructField("column_3", StringType(), True),
        ]
    )
#方法一
df = spark.read.csv(r"hdfs://my_master:8020/user/root/data_spark.csv", encoding='gbk', header=True, inferSchema=True) # header表示数据的第一行是否为列名，inferSchema表示自动推断schema,此时未指定schema
或者：
df = spark.read.csv(r"hdfs://my_master:8020/user/root/data_spark.csv", encoding='gbk', header=True, schema=schema)#使用指定的schema

#方法二
df = spark.read.format("csv").option("header",True).option("encoding", "gbk").load(r"hdfs://my_master:8020/user/root/data_spark.csv")
或者：
df = spark.read.format("csv").option("encoding","gbk").option("header",True).load(r"hdfs://tmaster:8020/user/root/data_spark.csv", schema=schema) 

# 写csv，例如追加数据格式为：
df.write.mode('append').option().option().format().save() 

#注意：以上数据建立在csv的第一行是列名的情况下，不是列名时，应该去掉header属性

参考：

https://blog.csdn.net/zpf336/article/details/90760384

https://blog.csdn.net/wc781708249/article/details/78251701

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 pyspark 读写csv、json文件 pyspark学习系列（二）读取CSV文件为RDD或者DataFrame进行数据处理 pyspark 读取csv文件创建DataFrame的两种方法 python 利用pyspark读取HDFS中CSV文件的指定列列名重命名并保存回HDFS pyspark之从HDFS上读取文件、从本地读取文件 Java读取csv文件 CSV文件读取、写入 csv文件读取与写入 Python读取CSV文件 Python读取CSV文件