Pandas重復值處理

本文轉載自查看原文 2019-09-04 23:46 2193 Pandas

import pandas as pd

#生成數據
data1,data2,data3,data4=['a',3],['b',2],['a',3],['c',2]
df=pd.DataFrame([data1,data2,data3,data4],columns=['col1','col2'])
print(df)
  col1  col2
0    a     3
1    b     2
2    a     3
3    c     2

#判斷數據
isDuplicated=df.duplicated() #判斷重復數據記錄
print(isDuplicated)
0    False
1    False
2     True
3    False
dtype: bool

#刪除重復的數據
print(df.drop_duplicates()) #刪除所有列值相同的記錄，index為2的記錄行被刪除
  col1  col2
0    a     3
1    b     2
3    c     2

print(df.drop_duplicates(['col1'])) #刪除col1列值相同的記錄，index為2的記錄行被刪除
  col1  col2
0    a     3
1    b     2
3    c     2

print(df.drop_duplicates(['col2'])) #刪除col2列值相同的記錄，index為2和3的記錄行被刪除
  col1  col2
0    a     3
1    b     2

print(df.drop_duplicates(['col1','col2'])) #刪除指定列（col1和col2）值相同的記錄，index為2的記錄行被刪除
  col1  col2
0    a     3
1    b     2
3    c     2

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Pandas對缺失值的處理 pandas缺失值處理 pandas nan值處理 pandas--帶有重復值的軸索引 Pandas系列（三）-缺失值處理 pandas 合並操作 append處理重復項 pandas按索引插入對應值的處理方法 - join pandas處理缺失值df.dropna( )的thresh參數 Python數據分析（二）pandas缺失值處理缺失值、異常值、重復值處理及啞變量變換