解決Pandas drop_duplicates()去重失敗的可能問題之一


在我們利用Pandas進行數據清洗的時候,往往會用到drop_duplicates()進行去重,但是不知道大家有沒有遇見過這一種現象:

按理說應該只有一條記錄的,可是卻仍然出現重復記錄,這種情況的產生原因是數據里包含空格制表符等。處理方式是可以在excel表中用trim(clean())清理空白符隱藏符(其實這個可能是最穩妥的)

或者在DataFrame中先用正則替換掉空白符如下:

s1.replace('\s','',regex=True,inplace=True)

s1.drop_duplicates()

 其中\s:表示匹配空白,即 空格,tab鍵等


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM