(4)pyspark---dataframe清理


1、交叉表(crosstab):

pandas中也有,常和pivot_table比較。

查看家庭ID與評分的交叉表:

2、處理缺失值:fillna

withColumn:新增一列數據

cast : 用於將某種數據類型的表達式顯式轉換為另一種數據類型

 將缺失值刪除:dropna

3、處理重復值

查看有沒有重復值存在:distinct().count()

將重復值去除:dropDuplicates()

 4、dataframe的agg應用:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM