Pandas的數據過濾


作者|Amanda Iglesias Moreno
編譯|VK
來源|Towards Datas Science

從數據幀中過濾數據是清理數據時最常見的操作之一。Pandas提供了一系列根據行和列的位置和標簽選擇數據的方法。此外,Pandas還允許你根據列類型獲取數據子集,並使用布爾索引篩選行。

在本文中,我們將介紹從Pandas數據框中選擇數據子集的最常見操作:

  • 按標簽選擇單列
  • 按標簽選擇多列
  • 按數據類型選擇列
  • 按標簽選擇一行
  • 按標簽選擇多行
  • 按位置選擇一行
  • 按位置選擇多行
  • 同時選擇行和列
  • 選擇標量值
  • 使用布爾選擇選擇選擇行

另外,我們將提供多個編碼示例!

數據集

在本文中,我們使用一個小數據集進行學習。在現實世界中,所使用的數據集要大得多;然而,用於過濾數據的過程保持不變。

數據框包含公司10名員工的信息:(1)身份證,(2)姓名,(3)姓氏,(4)部門,(5)電話,(6)工資,(7)合同類型。

import pandas as pd

# 員工的信息
id_number = ['128', '478', '257', '299', '175', '328', '099', '457', '144', '222']
name = ['Patrick', 'Amanda', 'Antonella', 'Eduard', 'John', 'Alejandra', 'Layton', 'Melanie', 'David', 'Lewis']
surname = ['Miller', 'Torres', 'Brown', 'Iglesias', 'Wright', 'Campos', 'Platt', 'Cavill', 'Lange', 'Bellow']
division = ['Sales', 'IT', 'IT', 'Sales', 'Marketing', 'Engineering', 'Engineering', 'Sales', 'Engineering', 'Sales']
salary = [30000, 54000, 80000, 79000, 15000, 18000, 30000, 35000, 45000, 30500]
telephone = ['7366578', '7366444', '7366120', '7366574', '7366113', '7366117', '7366777', '7366579', '7366441', '7366440']
type_contract = ['permanent', 'temporary', 'temporary', 'permanent', 'internship', 'internship', 'permanent', 'temporary', 'permanent', 'permanent']

# 包含員工信息的dataframe
df_employees = pd.DataFrame({'name': name, 'surname': surname, 'division': division,
                             'salary': salary, 'telephone': telephone, 'type_contract': type_contract}, index=id_number)

df_employees

1.按標簽選擇單列

要在Pandas中選擇一個列,我們可以使用.運算符和[]運算符。

按標簽選擇單列

df[string]

下面的代碼使用這兩種方法訪問salary列。

# 使用.符號選擇列(salary)
salary = df_employees.salary

# 使用方括號選擇列(salary)
salary_2 = df_employees['salary']

# 當選擇單個列時,我們獲得一個Series對象
print(type(salary))
# <class 'pandas.core.series.Series'>

print(type(salary_2))
# <class 'pandas.core.series.Series'>

salary

如上所示,當檢索單個列時,結果是一個Series對象。為了在只選擇一列時獲得一個DataFrame對象,我們需要傳入一個列表,而不僅僅是一個字符串。

# 通過向索引操作符傳遞一個字符串來獲取一個Series對象
df_employees['salary']

# 通過將帶有單個項的列表傳遞給索引操作符來獲取DataFrame對象
df_employees[['salary']]

此外,重要的是要記住,當列名包含空格時,我們不能使用.表示法來訪問數據幀的特定列。如果我們這么做了,就會產生一個語法錯誤。


2.按標簽選擇多列

我們可以通過傳入一個列名稱如下的列表來選擇一個數據幀的多個列。

按標簽選擇多列

df[list_of_strings]
# 通過將包含列名的列表傳遞給索引操作符來選擇多個列
df_employees[['division', 'salary']]

如上所示,結果是一個DataFrame對象,只包含列表中提供的列。

3.按數據類型選擇列

我們可以使用pandas.DataFrame.select類型(include=None,exclude=None)根據列的數據類型選擇列。該方法接受參數include和exclude中的列表或單個數據類型。

請記住,必須至少提供其中一個參數(include或exclude),並且它們不能包含重疊的元素。

按數據類型選擇列

df.select_dtypes(include=None, exclude=None)

在下面的示例中,我們通過傳入np.number對象添加到include參數。或者,我們可以通過提供字符串'number'作為輸入來獲得相同的結果。

可以看到,select_dtypes()方法返回一個DataFrame對象,該對象包括include參數中的數據類型,而排除exclude參數中的數據類型。

import numpy as np

# 選擇數值列- numpy對象
numeric_inputs = df_employees.select_dtypes(include=np.number)

# 使用.columns屬性
numeric_inputs.columns
# Index(['salary'], dtype='object')

# 該方法返回一個DataFrame對象
print(type(numeric_inputs))
# <class 'pandas.core.frame.DataFrame'>

# 選擇數字列
numeric_inputs_2 = df_employees.select_dtypes(include='number')

# 使用.columns屬性
numeric_inputs_2.columns
# Index(['salary'], dtype='object')

# 該方法返回一個DataFrame對象
print(type(numeric_inputs_2))
# <class 'pandas.core.frame.DataFrame'>

# 可視化數據框
numeric_inputs

如前所述,select_dtypes()方法可以同時接受字符串和numpy對象作為輸入。下表顯示了在Pandas中引用數據類型的最常用方法。

作為提醒,我們可以使用pandas.DataFrame.info方法或使用pandas.DataFrame.dtypes屬性。前者打印數據幀的簡明摘要,包括列名及其數據類型,而后者返回一個包含每個列的數據類型的序列。

# 數據框架的簡要摘要,包括列名及其數據類型
df_employees.info()

# 檢查列的數據類型
df_employees.dtypes

4.按標簽選擇單行

數據幀和序列不一定有數字索引。默認情況下,索引是表示行位置的整數;但是,它也可以是字母數字字符串。在我們當前的示例中,索引是員工的id號。

# 我們可以使用.index方法檢查數據幀的索引
df_employees.index
# Index(['128', '478', '257', '299', '175', '328', '099', '457', '144', '222'], dtype='object')
# 索引是雇員的id號。

要按id號選擇一行,我們可以使用.loc[]索引器提供一個字符串(索引名)作為輸入。

按標簽選擇單行

df.loc[string]

下面的代碼顯示如何選擇id號為478的員工。

# 使用.loc[]索引器選擇id號為478的員工
df_employees.loc['478']

如上所示,當選中一行時,.loc[]索引器將返回一個Series對象。但是,我們也可以通過將單個元素列表傳遞給.loc[]方法來獲得單行數據幀,如下所示。

# 使用.loc[]索引器選擇id號為478的雇員,並提供一個單元素列表
df_employees.loc[['478']]

5.按標簽選擇多行

我們可以使用.loc[]索引器選擇多行。除單個標簽外,索引器還接受一個列表或標簽片段作為輸入。

按標簽選擇多行

df.loc[list_of_strings]
df.loc[slice_of_strings]

接下來,我們獲得包含id號為478和222的雇員的數據幀的子集,如下所示。

# 使用.loc[]索引器選擇id號為478和222的員工
df_employees.loc[['478', '222']]

請注意,始終包含.loc[]方法的結束索引,這意味着所選內容包括最后一個標簽。

6.按位置選擇單行

iloc[]索引器用於按位置索引數據幀。要使用.iloc[]屬性選擇單行,我們將行位置(單個整數)傳遞給索引器。

按位置選擇單行

df.iloc[integer]

在下面的代碼塊中,我們選擇索引為0的行。在這種情況下,返回數據幀的第一行,因為在Pandas中索引從0開始。

# 選擇數據幀的第一行
df_employees.iloc[0]

此外,.iloc[]索引器還支持負整數(從-1開始)作為相對於數據幀末尾的相對位置。

# 選擇數據幀的最后一行
df_employees.iloc[-1]

如上所示,當選擇一行時,.iloc[]索引器返回一個以列名作為索引的Series對象。但是,正如我們對.loc[]索引器所做的那樣,我們還可以通過以下方式將單個整數列表傳遞給索引器來獲取數據幀。

# 選擇數據幀的最后一行
df_employees.iloc[[-1]]

最后,請記住,在嘗試訪問超出邊界的索引時會引發索引器錯誤。

# 數據框的形狀- 10行6列
df_employees.shape
# (10, 6)

# 當試圖訪問一個越界的索引時,會引發一個IndexError
df_employees.iloc[10]
# IndexError

7.通過多個位置選擇

為了按位置提取多行,我們將list或slice對象傳遞給.iloc[]索引器。

按位置選擇多行

df.iloc[list_of_integers]
df.iloc[slice_of_integers]

下面的代碼塊演示如何使用整數列表選擇數據幀的前五行。

# 使用列表選擇dataframe的前5行
df_employees.iloc[[0, 1, 2, 3, 4]]v

或者,我們可以使用切片表示法得到相同的結果。

# 使用切片選擇dataframe的前5行
df_employees.iloc[0:5]

如上所示,Python切片規則(半開區間)適用於.iloc[]屬性,這意味着包含第一個索引,但不包括結束索引。

8.同時選擇行和列

到目前為止,我們已經學習了如何使用.loc[]和.iloc[]索引器按標簽或位置選擇數據幀中的行。但是,這兩個索引器不僅能夠同時選擇行,還可以同時選擇行和列。

為此,我們必須提供用逗號分隔的行和列標簽/位置,如下所示:

同時選擇行和列

df.loc[row_labels, column_labels]
df.iloc[row_positions, column_positions]

其中行標簽和列標簽可以是單個字符串、字符串列表或字符串片段。同樣,行位置和列位置可以是單個整數、整數列表或整數切片。

下面的示例演示如何使用.loc[]和.iloc[]索引器同時提取行和列。

  • 選擇標量值

我們選擇id為478的員工的工資,方法如下。

# 按位置選擇身份證號為478的員工的工資
df_employees.iloc[1, 3]

# 根據標簽選擇id號為478的員工的工資
df_employees.loc['478', 'salary']
# 54000

在本例中,兩個索引器的輸出都是整數。

  • 選擇單行和多列

我們選擇id號為478的員工的姓名、姓氏和薪水,方法是將一個值作為第一個參數,將一個值列表作為第二個參數,從而獲得一個Series對象。

# 按職位選擇身份證號為478的員工的姓名、姓氏和工資
df_employees.iloc[1, [0, 1, 3]]

# 通過標簽選擇身份證號為478的員工的姓名、姓氏和工資
df_employees.loc['478', ['name', 'surname', 'salary']]

  • 選擇不相交的行和列

要選擇多行和多列,我們需要向兩個索引器傳遞兩個值列表。下面的代碼顯示如何提取id號為478和222的員工的姓名、姓氏和工資。

# 按職位選擇身份證號為478和222的員工的姓名、姓氏和工資
df_employees.iloc[[1, 9], [0, 1, 3]]

# 根據標簽選擇身份證號為478和222的員工的姓名、姓氏和工資
df_employees.loc[['478', '222'], ['name', 'surname', 'salary']]

與以前不同,這兩個索引器的輸出都是一個DataFrame對象。

  • 選擇連續的行和列

我們可以使用切片表示法提取數據幀的連續行和列。下面的代碼片段顯示如何選擇id號為128、478、257和299的員工的姓名、姓氏和薪水。

# 按職位選擇id號為128、478、257、299的員工的姓名、姓氏和工資
df_employees.iloc[:4, [0, 1, 3]]

# 按標簽選擇id號為128、478、257、299的員工的姓名、姓氏和工資
df_employees.loc[:'299', ['name', 'surname', 'salary']]

如上所示,我們只使用切片表示法來提取數據幀的行,因為我們要選擇的id號是連續的(索引從0到3)。

一定要記住.loc[]索引器使用一個閉合的間隔,同時提取開始標簽和停止標簽。相反,.iloc[]索引器使用半開區間,因此不包括停止索引處的值。

9.使用.at[]和.iat[]索引器選擇標量值

如上所述,我們可以通過將兩個用逗號分隔的字符串/整數傳遞給.loc[]和.iloc[]索引器來選擇標量值。此外,Pandas還提供了兩個優化函數來從數據幀對象中提取標量值:.at[]和.iat[]運算符。前者通過標簽提取單個值,而后者通過位置訪問單個值。

通過標簽和位置選擇標量值

df.at[string, string]
df.iat[integer, integer]

下面的代碼顯示如何使用.at[]和.iat[]索引器按標簽和位置選擇id號為478的員工的工資。

# 按位置選擇身份證號為478的員工的工資
df_employees.iat[1, 3]

# 根據標簽選擇id號為478的員工的工資
df_employees.at['478', 'salary']
# 54000

我們可以使用%timeit magic函數來計算這兩個Python語句的執行時間。如下所示,.at[]和.iat[]運算符比.loc[]和.iloc[]索引器快得多。

# loc索引器的執行時間
%timeit df_employees.loc['478', 'salary']

# at索引器的執行時間
%timeit df_employees.at['478', 'salary']

# iloc索引器的執行時間
%timeit df_employees.iloc[1, 3]

# iat索引器的執行時間
%timeit df_employees.iat[1, 3]

最后,必須記住,.at[]和.iat[]索引器只能用於訪問單個值,在嘗試選擇數據幀的多個元素時會引發類型錯誤。

# 當嘗試選擇多個元素時,會引發異常
df_employees.at['478', ['name', 'surname', 'salary']]
# TypeError

10.使用布爾選擇行

到目前為止,我們已經根據標簽和位置過濾了數據幀中的行和列。或者,我們也可以用布爾索引在Pandas中選擇一個子集。布爾選擇包括通過為每一行提供布爾值(True或False)來選擇數據幀的行。

在大多數情況下,這個布爾數組是通過將一個條件應用於一個或多個列的值來計算的,該條件的計算結果為True或False,具體取決於這些值是否滿足條件。但是,也可以使用其他序列、Numpy數組、列表或Pandas系列手動創建布爾數組。

然后,布爾值序列放在方括號[]內,返回與真值相關聯的行。

使用布爾選擇選擇選擇行

df[sequence_of_booleans]
根據單列值的布爾選擇

根據單列值過濾數據幀的最常見方法是使用比較運算符。

比較運算符計算兩個操作數(A和b)之間的關系,並根據是否滿足條件返回True或False。下表包含Python中可用的比較運算符。

這些比較運算符可用於數據幀的單列,以獲得布爾值序列。例如,我們使用大於運算符確定員工的工資是否大於45000,如下所示。

# 工資超過45000的員工
df_employees['salary'] > 45000

輸出是一系列布爾函數,其中工資高於45000為真,低於或等於45000為假。正如你可能注意到的那樣,boolean系列具有與原始數據幀相同的索引(id編號)。

可以將此序列傳遞給索引運算符[],以僅返回結果為True的行。

# 選擇工資高於45000的員工
df_employees[df_employees['salary'] > 45000]

如上所示,我們獲得了一個數據幀對象,其中只包含工資高於45000的員工。

根據多列值的布爾選擇

之前,我們已經根據一個條件過濾了一個數據幀。但是,我們也可以使用邏輯運算符將多個布爾表達式組合在一起。

在Python中,有三個邏輯運算符:and、or和not。但是,這些關鍵字在Pandas中不可用於組合多個布爾條件。而是使用以下運算符。

下面的代碼展示了如何選擇薪水高於45000的員工,以及有一份永久合同,其中包含兩個布爾表達式和邏輯運算符&。

# 選擇工資高於45000並有長期合同的員工
df_employees[(df_employees['salary'] > 45000) & (df_employees['type_contract'] == 'permanent')]

如你所知,在Python中,比較運算符的優先級高於邏輯運算符。但是,它不適用於邏輯運算符優先於比較運算符的panda。因此,我們需要將每個布爾表達式包裝在括號中以避免錯誤。

使用Pandas方法的布爾選擇

Pandas提供了一系列返回布爾值序列的內置函數,它是結合比較運算符和邏輯運算符的更復雜布爾表達式的一個有吸引力的替代方案。

  • isin方法

這個pandas.Series.isin方法接受一系列值,並在序列中與列表中的值匹配的位置返回True。

此方法允許我們檢查列中是否存在一個或多個元素,而無需使用邏輯運算符或。下面的代碼顯示如何使用邏輯運算符or和isin方法選擇具有永久或臨時合同的員工。

# 使用邏輯操作符或選擇具有永久或臨時合同的員工
df_employees[(df_employees['type_contract'] == 'temporary') | (df_employees['type_contract'] == 'permanent')]

# 使用isin方法選擇有永久或臨時合同的員工
df_employees[df_employees['type_contract'].isin(['temporary', 'permanent'])]

如你所見,isin方法在檢查同一列中的多個或條件時非常方便。另外,它更快!

# 使用邏輯運算符|執行時間
%timeit df_employees[(df_employees['type_contract'] == 'temporary') | (df_employees['type_contract'] == 'permanent')]

# isin方法的執行時間
%timeit df_employees[df_employees['type_contract'].isin(['temporary', 'permanent'])]

between方法

這個熊貓系列方法接受兩個用逗號分隔的標量,它們表示一個值范圍的上下邊界,並在該范圍內的位置返回True。

以下代碼選擇工資高於或等於30000且小於或等於80000的員工。

# 薪資高於或等於30000,低於或等於80000的員工
df_employees[df_employees['salary'].between(30000, 80000)]

如你所見,這兩個邊界(30000和80000)都包括在內。要排除它們,我們必須按以下方式傳遞inclusive=False參數。

# 薪資在3萬以上,8萬以下的員工
df_employees[df_employees['salary'].between(30000, 80000, inclusive=False)]

正如你可能注意到的,上面的代碼相當於編寫兩個布爾表達式,並使用邏輯運算符and對它們求值。

# 薪資高於或等於30000,低於或等於80000的員工
df_employees[(df_employees['salary']>=30000) & (df_employees['salary']<=80000)]
  • 字符串方法

此外,我們還可以將布爾索引與字符串方法一起使用,只要它們返回布爾值序列。

例如pandas.Series.str.contains方法檢查列的所有元素中是否存在子字符串,並返回一系列布爾值,我們可以將這些布爾值傳遞給索引運算符以篩選數據幀。

下面的代碼顯示如何選擇包含57的所有電話號碼。

# 選擇所有包含57的電話號碼
df_employees[df_employees['telephone'].str.contains('57')]

當contains方法計算子字符串是否包含在序列的每個元素中。pandas.Series.str.startswith函數檢查字符串開頭是否存在子字符串。同樣地pandas.Series.str.endswith測試字符串末尾是否存在子字符串。

以下代碼顯示如何選擇姓名以“A”開頭的員工。

# 選擇名字以“A”開頭的員工
df_employees[df_employees['name'].str.startswith('A')]

摘要

在本文中,我們學習從Dataframe中選擇子集。此外,我們還提供了多個使用示例。現在!現在是時候在清理你自己的數據時應用這些技術了!

原文鏈接:https://towardsdatascience.com/filtering-data-frames-in-pandas-b570b1f834b9

歡迎關注磐創AI博客站:
http://panchuang.net/

sklearn機器學習中文官方文檔:
http://sklearn123.com/

歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM