（3）pyspark----dataframe觀察

本文轉載自查看原文 2018-10-11 12:48 1079 大數據

1、讀取：

sparkDF.show()【這是pandas中沒有的】：打印內容

sparkDF.head()：打印前面的內容

sparkDF.describe()：統計信息

sparkDF.printSchema()：打印schema，列的屬性信息打印出來【這是pandas中沒有的】

sparkDF.columns：將列名打印出來

【select函數，原pandas中沒有】

sparkDF.select('列名1','列名2‘).show()：選擇dataframe的兩列數據顯示出來

sparkDF.select ( sparkDF['列名1']+1 , '列名2' ).show()：直接對列1進行操作（值+1）打印出來

filter【類似pandas中dataframe的采用列名來篩選功能】

sparkDF.filter ( sparkDF['value'] == 100 ).show()：將value這一列值為100的行篩選出來

distinct()函數：將重復值去除

sparkDF.count()：統計dataframe中有多少行

將評分為100的電影數量統計出來：

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 PySpark—DataFrame筆記 pyspark使用-dataframe操作 pyspark dataframe 常用操作 pyspark dataframe api速覽 PySpark Dataframe 添加新列 pyspark dataframe 轉 json 逐行輸出 [spark][pyspark]拆分DataFrame中某列Array spark官方文檔翻譯之 pyspark.sql.DataFrame pyspark創建RDD數據、RDD轉DataFrame以及保存 PySpark 入門：通過JDBC連接數據庫(DataFrame)