（3）pyspark----dataframe观察

本文转载自查看原文 2018-10-11 12:48 1079 大数据

1、读取：

sparkDF.show()【这是pandas中没有的】：打印内容

sparkDF.head()：打印前面的内容

sparkDF.describe()：统计信息

sparkDF.printSchema()：打印schema，列的属性信息打印出来【这是pandas中没有的】

sparkDF.columns：将列名打印出来

【select函数，原pandas中没有】

sparkDF.select('列名1','列名2‘).show()：选择dataframe的两列数据显示出来

sparkDF.select ( sparkDF['列名1']+1 , '列名2' ).show()：直接对列1进行操作（值+1）打印出来

filter【类似pandas中dataframe的采用列名来筛选功能】

sparkDF.filter ( sparkDF['value'] == 100 ).show()：将value这一列值为100的行筛选出来

distinct()函数：将重复值去除

sparkDF.count()：统计dataframe中有多少行

将评分为100的电影数量统计出来：

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 pyspark中的dataframe的观察操作 PySpark—DataFrame笔记 pyspark使用-dataframe操作 pyspark dataframe 常用操作 PySpark的DataFrame处理方法（4）pyspark---dataframe清理 PySpark DataFrame选择某几行 pyspark dataframe api速览 PySpark Dataframe 添加新列 pySpark-merge多个dataframe