Pandas的crosstab函數


作者|Bex T.
編譯|VK
來源|Towards Datas Science

介紹

我很喜歡DataCamp上的“Seaborn中間數據可視化”(Intermediate Data Visualization with Seaborn)這個課程。它教給新手非常棒的圖表和方法。但說到熱圖,課程的老師不知怎么地引入了一個全新的pandas函數crosstab。然后,很快說:“crosstab是一個計算交叉表的有用函數…”

我就在那里不理解了。顯然,我的第一反應是查看函數的文檔。我剛開始覺得我可以處理Matplotlib的任何文檔,但是…我錯了。.

在我練習之后,我知道這是別人也會掙扎的事情。所以,我在這里寫了一整篇文章。

在本文的最后一部分中,我討論了為什么有些課程不教你像crosstab這樣的高級函數。因為如果不在具體的環境下很難使用這樣的函數,同時又保持示例的初學者級別。

此外,大多數課程使用小型或玩具數據集。在更復雜的數據科學環境中,這些復雜函數的好處更為明顯,並且經常被更有經驗的pandas用戶使用。

在這篇文章中,我將教你如何使用crosstab以及如何在其他類似函數中選擇它。

目錄

  • 簡介

  • 設置

  • crosstab基礎知識

  • Pandas crosstab()與pivot_table()和groupby()的比較

  • Pandas crosstab()的進一步定制

  • Pandas crosstab(),多個組

你可以在這個GitHub repo上下載本文的notebook:https://github.com/BexTuychiev/medium_stories/tree/master/hardest_of_pandas2

設置

# 導入必要的庫
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# 忽略警告
import warnings
warnings.filterwarnings('ignore')

# 啟用多單元輸出
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

對於示例數據,我將使用Seaborn內置的diamonds數據集。它足夠大,並且有一些可以用crosstab()的變量:

diamonds = sns.load_dataset('diamonds')
diamonds.head()

crosstab()基礎知識

與許多計算分組匯總統計信息的函數一樣,crosstab()可以處理分類數據。它可用於將兩個或多個變量分組,並為每組的給定值執行計算。當然,使用groupby()或pivot_table()可以執行此類操作,但正如我們稍后將要看到的,crosstab()為你的日常工作流程帶來了許多好處。

函數接受兩個或多個列表、pandas series 或dataframe,默認情況下返回每個組合的頻率。我總是喜歡從一個例子開始,這樣你可以更好地理解定義,然后我將繼續解釋語法。

crosstab()總是返回一個數據幀,下面是一個例子。dataframe是diamonds中兩個變量的交叉表:cut和color。交叉表表示取一個變量,將其組顯示為index,取另一個變量,將其組顯示為columns。

pd.crosstab(index=diamonds['cut'], columns=diamonds['color'])

語法相當簡單。index用於對變量進行分組,並將其顯示為index(行),對於列也是如此。如果沒有給定聚合函數,則每個單元格將計算每個組合中的觀察數。例如,左上角的單元格告訴我們,有2834顆顏色代碼為D而且是理想切割的鑽石,。

接下來,我們要查看每個組合的平均價格。crosstab()提供values參數來引入第三個要聚合的數值變量:

pd.crosstab(index=diamonds['cut'],
            columns=diamonds['color'],
            values=diamonds['price'],
            aggfunc=np.mean).round(0)

現在,每個單元格包含了cut和color組合的平均價格。為了說明我們要計算平均價格,我們將price列傳遞給values。請注意,始終必須同時使用values和aggfunc。否則,你將得到一個錯誤。我還使用round()將答案四舍五入。

盡管它有點高級,但是當你將crosstab()表傳遞到seaborn的熱圖中時,你將充分利用crosstab()表的優點。讓我們在熱圖中看到上表:

cross = pd.crosstab(index=diamonds['cut'],
                    columns=diamonds['color'],
                    values=diamonds['price'],
                    aggfunc=np.mean).round(0)
sns.heatmap(cross, cmap='rocket_r', annot=True, fmt='g');

seaborn可以自動將crosstab()表轉換為熱圖。我將注釋設置為True,並用顏色條顯示熱圖。seaborn還為列和索引名添加了樣式(fmt='g' 將數字顯示為整數而不是科學計數)。

熱圖更容易解釋。你不想讓你的最終用戶看到一張滿是數字的表格。因此,我將在需要時將每個crosstab()結果放入熱圖中。為了避免重復,我創建了一個有用的函數:

def plot_heatmap(cross_table, fmt='g'):
    fig, ax = plt.subplots(figsize=(8, 5))
    sns.heatmap(cross_table,
                annot=True,
                fmt=fmt,
                cmap='rocket_r',
                linewidths=.5,
                ax=ax)
    plt.show();

Pandas crosstab()與pivot_table()和groupby()的比較

在我們繼續討論更有趣的內容之前,我想我需要澄清計算分組摘要統計的三個函數之間的區別。

我在本文的第一部分介紹了pivot_table()和groupby()的區別。對於crosstab(),這三者之間的區別在於語法和結果的形狀。讓我們使用這三種方法計算:

# 使用 groupby()
>>> diamonds.groupby(['cut', 'color'])['price'].mean().round(0)

cut        color
Ideal      D        2629.0
           E        2598.0
           F        3375.0
           G        3721.0
           H        3889.0
           I        4452.0
           J        4918.0
Premium    D        3631.0
           E        3539.0
           F        4325.0
           G        4501.0
           H        5217.0
           I        5946.0
           J        6295.0
Very Good  D        3470.0
           E        3215.0
           F        3779.0
           G        3873.0
           H        4535.0
           I        5256.0
           J        5104.0
Good       D        3405.0
           E        3424.0
           F        3496.0
           G        4123.0
           H        4276.0
           I        5079.0
           J        4574.0
Fair       D        4291.0
           E        3682.0
           F        3827.0
           G        4239.0
           H        5136.0
           I        4685.0
           J        4976.0
Name: price, dtype: float64

# 使用 pivot_table()
diamonds.pivot_table(values='price',
                     index='cut',
                     columns='color',
                     aggfunc=np.mean).round(0)
# 使用 crosstab()
pd.crosstab(index=diamonds['cut'],
            columns=diamonds['color'],
            values=diamonds['price'],
            aggfunc=np.mean).round(0)

以上是pivot_table的輸出

以上是crosstab的輸出

我想你已經知道你最喜歡的了。grouppy()返回一個序列,而另兩個返回相同的數據幀。但是,可以將groupby系列轉換為相同的數據幀,如下所示:

grouped = diamonds.groupby(['cut', 'color'])['price'].mean().round(0)
grouped.unstack()

如果你不了解pivot_table()和unstack()的語法,我強烈建議你閱讀本文的第一部分。

說到速度,crosstab()比pivot_table()快,但都比groupby()慢得多:

%%timeit
diamonds.pivot_table(values='price',
                     index='cut',
                     columns='color',
                     aggfunc=np.mean)
11.5 ms ± 483 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%%timeit
pd.crosstab(index=diamonds['cut'],
            columns=diamonds['color'],
            values=diamonds['price'],
            aggfunc=np.mean)
10.8 ms ± 344 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

%%timeit
diamonds.groupby(['cut', 'color'])['price'].mean().unstack()
4.13 ms ± 39.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

如你所見,即使使用unstack()鏈接,groupby()也比其他兩個快3倍。這說明如果你只想分組和計算摘要統計信息,那么應該使用相同的groupby()。當我鏈接其他方法(如simple round()時,速度差甚至更大。

其余的比較主要是關於pivot_table()和crosstab()。如你所見,這兩個函數的結果的形狀是相同的。兩者之間的第一個區別是crosstab()可以處理任何數據類型。

它可以接受任何類似數組的對象,比如列表、numpy數組、數據幀列(pandas series)。但是,pivot_table()只對dataframe有效。在一個很有幫助的StackOverflow中,我發現如果在數據幀上使用crosstab(),它會在后台調用pivot_table()。

接下來是參數。有些參數只存在於一個參數中,反之亦然。第一個最流行的是crosstab()的normalize。normalize接受以下選項(來自文檔):

  • 如果傳遞了all或True,則將規范化所有值。

  • 如果傳遞index,將規范化每一行。

  • 如果傳遞columns,將規范化每個列。

讓我們看一個簡單的例子:

cross = pd.crosstab(index=diamonds['cut'],
                    columns=diamonds['color'],
                    normalize='all')
plot_heatmap(cross, fmt='.2%')

如果傳遞all,對於每個單元格,pandas計算總金額的百分比:

# 證明所有值加起來約等於1
>>> pd.crosstab(diamonds['cut'], 
                diamonds['color'], 
                normalize='all').values.sum()
                
1.0000000000000002

如果傳遞index或columns,則按列或按行執行相同的操作:

cross = pd.crosstab(diamonds['cut'], 
                    diamonds['color'], 
                    normalize='index')
plot_heatmap(cross, fmt='.2%')

以上是按行規范化

cross = pd.crosstab(diamonds['cut'], diamonds['color'], normalize='columns')
plot_heatmap(cross, fmt='.2%')

以上是按列規范化

在crosstab()中,還可以使用行名和列名直接在函數內更改索引和列名。之后不必手動執行。當我們一次按多個變量分組時,這兩個參數非常有用,你將在后面看到。

參數fill_value只存在於pivot_table()中。有時,當你按許多變量分組時,不可避免地會出現不一致。在pivot_table()中,可以使用fill_value將它們更改為自定義值:

diamonds.pivot_table(index='color', 
                     columns='cut', 
                     fill_value=0)

但是,如果使用crosstab(),則可以通過在dataframe上鏈接fillna()來實現相同的效果:

pd.crosstab(diamonds['cut'], diamonds['color']).fillna(0)

Pandas crosstab()的進一步定制

crosstab()的另外兩個有用參數是margins和margins_name(兩者都存在於pivot_table()中)。設置為True時,邊界計算每行和每列的和。我們來看一個例子:

pd.crosstab(index=diamonds['cut'], 
            columns=diamonds['clarity'],  
            margins=True)

pandas自動添加最后一行和最后一列,默認名稱為All。margins_name可以控制名字:

pd.crosstab(index=diamonds['cut'],
            columns=diamonds['clarity'],
            margins=True,
            margins_name='Total Number')

右下角的單元格將始終包含觀察的總數,或者如果“normalize”設置為True,則為1:

pd.crosstab(index=diamonds['cut'],
            columns=diamonds['clarity'],
            margins=True,
            margins_name='Total Percentage',
            normalize=True)

請注意,如果將margins設置為True,則熱圖是無用的。

Pandas crosstab(),多組

對於index和columns參數,可以傳遞多個變量。結果將是一個具有多級索引的數據幀。這次我們插入所有的分類變量:

pd.crosstab(index=[diamonds['cut'], diamonds['clarity']],
            columns=diamonds['color'])

對於index,我傳遞了color和cut。如果我把它們傳遞給列,結果將是一個包含40列的數據幀。如果你注意的話,多級索引如預期的那樣命名為cut和clear。對於存在多級索引或列名的情況,crosstab()有方便的參數來更改它們的名稱:

pd.crosstab(index=[diamonds['cut'], diamonds['clarity']],
            columns=diamonds['color'], 
            rownames=['Diamond Cut', 'Clarity']).head()

傳遞相應名稱的列表,以將索引名稱更改為行名稱。這個過程對於控制列名的colnames是相同的。

有一件事讓我很驚訝,如果你把多個函數傳遞給aggfunc,pandas就會拋出一個錯誤。同樣,StackOverflow上的伙計們認為這是一個bug,而且已經有6年多沒有解決過了。

最后要注意的是,在pivot_table()和crosstab()中,都有一個dropna參數,如果設置為True,則會刪除包含所有nan的列或行。

原文鏈接:https://towardsdatascience.com/meet-the-hardest-functions-of-pandas-part-ii-f8029a2b0c9b

歡迎關注磐創AI博客站:
http://panchuang.net/

sklearn機器學習中文官方文檔:
http://sklearn123.com/

歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM