Pandas常用操作 - 去重

本文轉載自查看原文 2021-06-06 13:40 1483 Pandas

df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack', np.nan], 'stu_age': [16, 16, 15, np.nan, 21]})

  stu_name  stu_age
0    Nancy     17.0
1     Tony     16.0
2     Tony     16.0
3     Jack     21.0
4     Jack      NaN

df_clean = df.drop_duplicates(subset=['stu_name'])
print(df)

  stu_name  stu_age
0    Nancy     17.0
1     Tony     16.0
3     Jack     21.0

df_clean2 = df.drop_duplicates(subset=['stu_name', 'stu_age'])
print(df_clean2)

  stu_name  stu_age
0    Nancy     17.0
1     Tony     16.0
3     Jack     21.0
4     Jack      NaN

df = pd.DataFrame({'stu_name': ['Tom', 'Tony', 'Jack', 'Jack', np.nan], 'stu_age': [16, 16, 15, np.nan, 21]})

  stu_name  stu_age
0    Nancy     17.0
1     Tony     16.0
2     Tony     16.0
3     Jack     21.0
4     Jack      NaN

duplicate_df = df[df.duplicated('stu_name')]
clean_df = df.drop(duplicate_df.index)

subset: 單個列名或者一組列名數組（可選）。如果不設置該參數，則默認對全部列進行去重
keep: 保留的列

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Pandas Dataframe增、刪、改、查、去重、抽樣基本操作 Python通過pandas操作excel常用功能利用pandas去重 pandas去重方法 pandas的合並、連接、去重、替換 pandas常用操作詳解——.loc與.iloc函數的使用及區別 python常用的去重方式數組去重(常用方法) pandas常用操作詳解(復制別人的)——數據透視表操作：pivot_table() 用Spark做去重操作