在我們利用Pandas進行數據清洗的時候,往往會用到drop_duplicates()進行去重,但是不知道大家有沒有遇見過這一種現象:

按理說應該只有一條記錄的,可是卻仍然出現重復記錄,這種情況的產生原因是數據里包含空格制表符等。處理方式是可以在excel表中用trim(clean())清理空白符隱藏符(其實這個可能是最穩妥的)
或者在DataFrame中先用正則替換掉空白符如下:

s1.replace('\s','',regex=True,inplace=True)
s1.drop_duplicates()

其中\s:表示匹配空白,即 空格,tab鍵等
