excel去重使用python方法drop_duplicates去重詳解


根據數據的不同情況及處理數據的不同需求,通常會分為兩種情況,一種是去除完全重復的行數據,另一種是去除某幾列重復的行數據,就這兩種情況可用下面的代碼進行處理。

1. 去除完全重復的行數據

data.drop_duplicates(inplace=True)

2. 去除某幾列重復的行數據

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

subset: 列名,可選,默認為None

keep: {‘first’, ‘last’, False}, 默認值 ‘first’

  • first: 保留第一次出現的重復行,刪除后面的重復行。
  • last: 刪除重復項,除了最后一次出現。
  • False: 刪除所有重復項。

inplace:布爾值,默認為False,是否直接在原數據上刪除重復項或刪除重復項后返回副本。(inplace=True表示直接在原來的DataFrame上刪除重復項,而默認值False表示生成一個副本。)

python代碼:

import pandas as pd
pd=pd.read_excel("健康打卡0.xlsx")
pd.drop_duplicates('userid',keep='last',inplace=True)
print(pd)
pd.to_excel('健康打卡1.xlsx')

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM