python 去重和保留重复值方法 duplicated 和 drop_duplicates


import pandas as pd
1.duplicated 保留重复值
源码默认标记重复的第一个为不重复第,duplicated(keep='first')

# duplicated 标记重复值,若想第一次出现和最后一次出现不标记那么在参数keep填充相应的参数,如果想标记全部出现的重复值,那么keep=False
animals = pd.Series(['lama', 'cow', 'lama', 'beetle', 'lama'])
animals1 = animals.duplicated(keep='first')
print(animals1)
animals2 = animals.duplicated(keep='last')
print(animals2)
animals3 = animals.duplicated(keep= False)
print(animals3)
2.
drop_duplicates 去除重复值
源码默认保留第一个,可用inplace 直接修改数据源drop_duplicates(keep='first', inplace=False)
# drop_duplicates 去除重复值,若想保留第一次出现或者保留最后一次出现,那么在参数keep填充相应的参数
animals_d1 = animals.drop_duplicates(keep='first')
print(animals_d1)
animals_d2 = animals.drop_duplicates(keep='last')
print(animals_d2)


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM