import pandas as pd
#生成數據
data1,data2,data3,data4=['a',3],['b',2],['a',3],['c',2]
df=pd.DataFrame([data1,data2,data3,data4],columns=['col1','col2'])
print(df)
col1 col2
0 a 3
1 b 2
2 a 3
3 c 2
#判斷數據
isDuplicated=df.duplicated() #判斷重復數據記錄
print(isDuplicated)
0 False
1 False
2 True
3 False
dtype: bool
#刪除重復的數據
print(df.drop_duplicates()) #刪除所有列值相同的記錄,index為2的記錄行被刪除
col1 col2
0 a 3
1 b 2
3 c 2
print(df.drop_duplicates(['col1'])) #刪除col1列值相同的記錄,index為2的記錄行被刪除
col1 col2
0 a 3
1 b 2
3 c 2
print(df.drop_duplicates(['col2'])) #刪除col2列值相同的記錄,index為2和3的記錄行被刪除
col1 col2
0 a 3
1 b 2
print(df.drop_duplicates(['col1','col2'])) #刪除指定列(col1和col2)值相同的記錄,index為2的記錄行被刪除
col1 col2
0 a 3
1 b 2
3 c 2