(3)pyspark----dataframe觀察


1、讀取:

  • sparkDF = spark.read.csv(path)
  • sparkDF = spark.read.text(path)

2、打印:

sparkDF.show()【這是pandas中沒有的】:打印內容

sparkDF.head():打印前面的內容

sparkDF.describe():統計信息

sparkDF.printSchema():打印schema,列的屬性信息打印出來【這是pandas中沒有的】

sparkDF.columns:將列名打印出來

3、選擇列

【select函數,原pandas中沒有】

sparkDF.select('列名1','列名2‘).show():選擇dataframe的兩列數據顯示出來

sparkDF.select ( sparkDF['列名1']+1 , '列名2' ).show():直接對列1進行操作(值+1)打印出來

 

4、篩選列:

filter【類似pandas中dataframe的采用列名來篩選功能】

sparkDF.filter ( sparkDF['value'] == 100 ).show():將value這一列值為100的行篩選出來

 

 5、計算不重復值以及統計dataframe的行數

 distinct()函數:將重復值去除

sparkDF.count():統計dataframe中有多少行

將評分為100的電影數量統計出來:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM