1、交叉表(crosstab):
pandas中也有,常和pivot_table比較。

查看家庭ID與評分的交叉表:

2、處理缺失值:fillna

withColumn:新增一列數據
cast : 用於將某種數據類型的表達式顯式轉換為另一種數據類型

將缺失值刪除:dropna

3、處理重復值
查看有沒有重復值存在:distinct().count()

將重復值去除:dropDuplicates()

4、dataframe的agg應用:

pandas中也有,常和pivot_table比較。








本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。