df.duplicated()
參數詳解:
subset:檢測重復的數據范圍。默認為數據集的所有列,可指定特定數據列;
keep: 標記哪個重復數據,默認為‘first’。1.‘first’:標記重復數據第一次出現為True;‘last’:標記重復數據最后一次出現為True;False:標記所有重復數據為True。
import pandas as pd #構造數據(數據集來自pandas官網
df = pd.DataFrame({ 'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'], 'style': ['cup', 'cup', 'cup', 'pack', 'pack'], 'rating': [4, 4, 3.5, 15, 5] })
#1 df.duplicated(keep='first') #2 df.duplicated(keep='last') #3 df.duplicated(keep=False)
#檢測brand列的重復情況 df.duplicated(subset=['brand'])
df.drop_duplicates()
參數詳解:
subset:見上;
keep:見上;
inplace:默認為False,是否返回一個copy;
ignore_index:默認為False,是否重新構建索引。
df.drop_duplicates()
df.drop_duplicates(subset=['brand', 'style'], keep='last')