解决Pandas drop_duplicates()去重失败的可能问题之一

本文转载自查看原文 2020-06-28 16:49 1133 pandas

在我们利用Pandas进行数据清洗的时候，往往会用到drop_duplicates()进行去重，但是不知道大家有没有遇见过这一种现象：

按理说应该只有一条记录的，可是却仍然出现重复记录，这种情况的产生原因是数据里包含空格制表符等。处理方式是可以在excel表中用trim(clean())清理空白符隐藏符（其实这个可能是最稳妥的）

或者在DataFrame中先用正则替换掉空白符如下：

s1.replace('\s','',regex=True,inplace=True)

s1.drop_duplicates()

其中\s:表示匹配空白，即空格，tab键等

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 pandas drop_duplicates Lesson11——Pandas去重函数：drop_duplicates() dataframe去重 drop_duplicates pandas中drop_duplicates用法 excel去重使用python方法drop_duplicates去重详解 drop_duplicates()函数 python 去重和保留重复值方法 duplicated 和 drop_duplicates python dataframe drop_duplicates用法技巧去重 pandas使用drop_duplicates去除DataFrame重复项 python dataframe drop_duplicates