Pandas重復值處理


import pandas as pd

#生成數據
data1,data2,data3,data4=['a',3],['b',2],['a',3],['c',2]
df=pd.DataFrame([data1,data2,data3,data4],columns=['col1','col2'])
print(df)
  col1  col2
0    a     3
1    b     2
2    a     3
3    c     2

#判斷數據
isDuplicated=df.duplicated() #判斷重復數據記錄
print(isDuplicated)
0    False
1    False
2     True
3    False
dtype: bool

#刪除重復的數據
print(df.drop_duplicates()) #刪除所有列值相同的記錄,index為2的記錄行被刪除
  col1  col2
0    a     3
1    b     2
3    c     2

print(df.drop_duplicates(['col1'])) #刪除col1列值相同的記錄,index為2的記錄行被刪除
  col1  col2
0    a     3
1    b     2
3    c     2

print(df.drop_duplicates(['col2'])) #刪除col2列值相同的記錄,index為2和3的記錄行被刪除
  col1  col2
0    a     3
1    b     2

print(df.drop_duplicates(['col1','col2'])) #刪除指定列(col1和col2)值相同的記錄,index為2的記錄行被刪除
  col1  col2
0    a     3
1    b     2
3    c     2


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM