pandas常用操作詳解——pandas的去重操作df.duplicated()與df.drop_duplicates()


df.duplicated()

參數詳解:

subset:檢測重復的數據范圍。默認為數據集的所有列,可指定特定數據列;

keep: 標記哪個重復數據,默認為‘first’。1.‘first’:標記重復數據第一次出現為True;‘last’:標記重復數據最后一次出現為True;False:標記所有重復數據為True。

import pandas as pd

#構造數據(數據集來自pandas官網
df = pd.DataFrame({ 'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'], 'style': ['cup', 'cup', 'cup', 'pack', 'pack'], 'rating': [4, 4, 3.5, 15, 5] })

 

 

#1
df.duplicated(keep='first')
#2
df.duplicated(keep='last')
#3
df.duplicated(keep=False)

 

 

#檢測brand列的重復情況
df.duplicated(subset=['brand'])

 

 

df.drop_duplicates()

 參數詳解:

subset:見上;

keep:見上;

inplace:默認為False,是否返回一個copy;

ignore_index:默認為False,是否重新構建索引。

 

 

df.drop_duplicates()

 

 

df.drop_duplicates(subset=['brand', 'style'], keep='last')

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM