pandas常用操作詳解——pandas的去重操作df.duplicated()與df.drop_duplicates()

本文轉載自查看原文 2021-04-20 17:13 405 pandas常用操作

df.duplicated()

參數詳解：

subset：檢測重復的數據范圍。默認為數據集的所有列，可指定特定數據列；

keep: 標記哪個重復數據，默認為‘first’。1.‘first’：標記重復數據第一次出現為True;‘last’：標記重復數據最后一次出現為True；False:標記所有重復數據為True。

import pandas as pd

#構造數據(數據集來自pandas官網

df = pd.DataFrame({ 'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'], 'style': ['cup', 'cup', 'cup', 'pack', 'pack'], 'rating': [4, 4, 3.5, 15, 5] })

#1
df.duplicated(keep='first')
#2
df.duplicated(keep='last')
#3
df.duplicated(keep=False)

#檢測brand列的重復情況
df.duplicated(subset=['brand'])

df.drop_duplicates()

參數詳解：

subset:見上；

keep:見上；

inplace:默認為False,是否返回一個copy；

ignore_index:默認為False,是否重新構建索引。

df.drop_duplicates()

df.drop_duplicates(subset=['brand', 'style'], keep='last')

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 df.drop_duplicates()返回刪除重復行（或者列）的DataFrame python 去重和保留重復值方法 duplicated 和 drop_duplicates Lesson11——Pandas去重函數：drop_duplicates() pandas使用drop_duplicates去除DataFrame重復項 pandas常用操作詳解——info()與descirbe() pandas.DataFrame.duplicated 關於drop_duplicates的兩種用法 pandas 操作mysql詳解 Pandas 常見操作詳解 Pandas庫常用函數和操作