pandas之去重

本文轉載自查看原文 2021-12-05 12:31 2685

“去重”通過字面意思不難理解，就是刪除重復的數據。在一個數據集中，找出重復的數據刪並將其刪除，最終只保存一個唯一存在的數據項，這就是數據去重的整個過程。刪除重復數據是數據分析中經常會遇到的一個問題。通過數據去重，不僅可以節省內存空間，提高寫入性能，還可以提升數據集的精確度，使得數據集不受重復數據的影響。

Panda DataFrame 對象提供了一個數據去重的函數 drop_duplicates()，本節對該函數的用法做詳細介紹。

函數格式

drop_duplicates()函數的語法格式如下：

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

參數說明如下：

subset：表示要進去重的列名，默認為 None。
keep：有三個可選參數，分別是 first、last、False，默認為 first，表示只保留第一次出現的重復項，刪除其余重復項，last 表示只保留最后一次出現的重復項，False 則表示刪除所有重復項。
inplace：布爾值參數，默認為 False 表示刪除重復項后返回一個副本，若為 Ture 則表示直接在原數據上刪除重復項。

實際應用

首先創建一個包含有重復值的 DataFrame 對象，如下所示：

import pandas as pd
data={
'A':[1,0,1,1],
'B':[0,2,5,0],
'C':[4,0,4,4],
'D':[1,0,1,1]
}
df=pd.DataFrame(data=data)
print(df)

輸出結果：

1) 默認保留第一次出現的重復項

import pandas as pd
data={
  
    'A':[1,0,1,1],
    'B':[0,2,5,0],
    'C':[4,0,4,4],
    'D':[1,0,1,1]
}
df=pd.DataFrame(data=data)
#默認保留第一次出現的重復項
df.drop_duplicates()

輸出結果：

2) keep=False刪除所有重復項

import pandas as pd
data={
'A':[1,0,1,1],
'B':[0,2,5,0],
'C':[4,0,4,4],
'D':[1,0,1,1]
}
df=pd.DataFrame(data=data)
#默認保留第一次出現的重復項
df.drop_duplicates(keep=False)

輸出結果：

  A B C D
1 0 2 0 0
2 1 5 4 1

3) 根據指定列標簽去重

import pandas as pd
data={
'A':[1,3,3,3],
'B':[0,1,2,0],
'C':[4,5,4,4],
'D':[3,3,3,3]
}
df=pd.DataFrame(data=data)
#去除所有重復項，對於B列來說兩個0是重復項
df.drop_duplicates(subset=['B'],keep=False)
#簡寫，省去subset參數
#df.drop_duplicates(['B'],keep=False)
print(df)

輸出結果：

  A B C D
1 3 1 5 3
2 3 2 4 3

從上述示例可以看出，刪除重復項后，行標簽使用的數字是原來的，並沒有從 0 重新開始，那么我們應該怎么從 0 重置索引呢？Pandas 提供的 reset_index() 函數會直接使用重置后的索引。如下所示：

import pandas as pd

data={
   
    'A':[1,3,3,3],
    'B':[0,1,2,0],
    'C':[4,5,4,4],
    'D':[3,3,3,3]
}
df=pd.DataFrame(data=data)
#去除所有重復項，對於B來說兩個0是重復項
df=df.drop_duplicates(subset=['B'],keep=False)
#重置索引，從0重新開始
df.reset_index(drop=True)

輸出結果：

  A B C D
0 3 1 5 3
1 3 2 4 3

4) 指定多列同時去重

創建一個 DataFrame 對象，如下所示：

import numpy as np
import pandas as pd
df = pd.DataFrame({'Country ID':[1,1,2,12,34,23,45,34,23,12,2,3,4,1],
'Age':[12,12,15,18, 19, 25, 21, 25, 25, 18, 25,12,32,18],
'Group ID':['a','z','c','a','b','s','d','a','b','s','a','d','a','f']})
#last只保留最后一個重復項
df.drop_duplicates(['Age','Group ID'],keep='last')

輸出結果：

  Country ID Age Group ID
0   1         12      a
1   1         12      z
2   2         15      c
3   3         18      a
4   4         19      b
5   3         25      s
6   4         21      d
8   2         25      b
9   1         18      s
10  2         25      a
11  3         12      d
12  4         32      a
13  1         18      f

上述數據集中，第 7 行、第 10 行對應的列標簽數據相同，我們使用參數值“last”保留最后一個重復項，也就是第 10 行數據。

關注微信公眾號「站長嚴長生」，在手機上閱讀所有教程，隨時隨地都能學習。本公眾號由C語言中文網站長運營，每日更新，堅持原創，敢說真話，凡事有態度。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【pandas】數據去重 pandas excel合並去重利用pandas去重 pandas去重方法 Pandas常用操作 - 去重 pandas的合並、連接、去重、替換 pandas 分組后去重計數 pandas 常用清洗數據（三）排序，去重 pandas中DataFrame和Series的數據去重 Pandas 數據篩選,去重結合group by