【pandas-07】分組統計、groupby聚合后不同列數據統計和合並、分層索引MultiIndex和stack及pivot實現數據透視

本文轉載自查看原文 2021-04-14 20:45 900 pandas

一、groupby分組統計

類似SQL：

select city,max(temperature) from city_weather group by city;

groupby：先對數據分組，然后在每個分組上應用聚合函數、轉換函數，官網如下：

1 分組使用聚合函數做數據統計

1）單個列groupby，查詢所有數據列的統計

我們看到：

groupby中的'A'變成了數據的索引列
因為要統計sum，但B列不是數字，所以被自動忽略掉

2）多個列groupby，查詢所有數據列的統計

3）同時查看多種數據統計

我們看到：列變成了多級索引

4）查看單列的結果數據統計

5）不同列使用不同的聚合函數

2 遍歷groupby的結果理解執行流程

for循環可以直接遍歷每個group

1）遍歷單個列聚合的分組

可以獲取單個分組的數據

2）遍歷多個列聚合的分組

可以直接查詢group后的某幾列，生成Series或者子DataFrame

3 實例分組探索天氣數據

實驗數據

1）查看每個月的最高溫度

2）查看每個月的最高溫度、最低溫度、平均空氣質量指數

二、groupby聚合后不同列數據統計和合並

電影評分數據集（UserID，MovieID，Rating，Timestamp）

聚合后單列-單指標統計：每個MovieID的平均評分

df.groupby("MovieID")["Rating"].mean()

聚合后單列-多指標統計：每個MoiveID的最高評分、最低評分、平均評分

df.groupby("MovieID")["Rating"].agg(mean="mean", max="max", min=np.min)
df.groupby("MovieID").agg({"Rating":['mean', 'max', np.min]})

聚合后多列-多指標統計：每個MoiveID的評分人數，最高評分、最低評分、平均評分

df.groupby("MovieID").agg( rating_mean=("Rating", "mean"), user_count=("UserID", lambda x : x.nunique())
df.groupby("MovieID").agg( {"Rating": ['mean', 'min', 'max'], "UserID": lambda x :x.nunique()})
df.groupby("MovieID").apply( lambda x: pd.Series( {"min": x["Rating"].min(), "mean": x["Rating"].mean()}))

記憶：agg(新列名=函數)、agg(新列名=(原列名，函數))、agg({"原列名"：函數/列表})

agg函數的兩種形式，等號代表"把結果賦值給新列"，字典/元組代表"對這個列運用這些函數"

官網文檔：https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.core.groupby.DataFrameGroupBy.agg.html

注意：

如果按一列聚合，只傳列名字符串，如果多個就要傳由列名組成的列表
聚合方法可以使用 Pandas 的數學統計函數或者 Numpy 的統計函數，如果是 python 的內置統計函數，直接使用變量，不需要加引號

1 聚合后單列-單指標統計

2 聚合后單列-多指標統計

每個MoiveID的最高評分、最低評分、平均評分

方法1：agg函數傳入多個結果列名=函數名形式

方法2：agg函數傳入字典，key是column名，value是函數列表

3 聚合后多列-多指標統計

每個MoiveID的評分人數，最高評分、最低評分、平均評分

方法1：agg函數傳入字典，key是原列名，value是原列名和函數元組

方法2：agg函數傳入字典，key是原列名，value是函數列表

統計后是二級索引，需要做索引處理

方法3：使用groupby之后apply對每個子df單獨統計

4 聚合后字符串列的合並

數據

方法一

方法二

5 agg函數

agg函數一般與groupby配合使用，agg是基於列的聚合操作，而groupby是基於行的

DataFrame.agg（func，axis = 0，* args，** kwargs ）

func : 函數，函數名稱，函數列表，字典{'行名/列名'，'函數名'}

使用指定軸上的一個或多個操作進行聚合。

6 使用字典和Series分組

import pandas as pd

路徑 = 'c:/pandas/分組聚合2.xlsx'

數據 = pd.read_excel(路徑,index_col='店號')

對應關系 = {'1月':'一季度','2月':'一季度','3月':'一季度','4月':'二季度'}

數據2 = 數據.groupby(對應關系,axis=1)

print(數據2.sum())

三、分層索引MultiIndex

為什么要學習分層索引MultiIndex？

分層索引：在一個軸向上擁有多個索引層級，可以表達更高維度數據的形式；
可以更方便的進行數據篩選，如果有序則性能更好；
groupby等操作的結果，如果是多KEY，結果是分層索引，需要會使用
一般不需要自己創建分層索引(MultiIndex有構造函數但一般不用)

演示數據：百度、阿里巴巴、愛奇藝、京東四家公司的10天股票數據

數據來自：英為財經 https://cn.investing.com/

1 Series的分層索引MultiIndex

2 Series有多層索引怎樣篩選數據？

3 DataFrame的多層索引MultiIndex

4 DataFrame有多層索引怎樣篩選數據？

【重要知識】在選擇數據時：

元組(key1,key2)代表篩選多層索引，其中key1是索引第一級，key2是第二級，比如key1=JD, key2=2019-10-02
列表[key1,key2]代表同一層的多個KEY，其中key1和key2是並列的同級索引，比如key1=JD, key2=BIDU

5 多層索引的創建的方式【行】

from_arrays	接收一個多維數組參數，高維指定高層索引，低維指定底層索引
from_tuples	接收一個元組的列表，每個元組指定每個索引（高維索引，低維索引）
from_product	接收一個可迭代對象的列表，根據多個可迭代對象元素的笛卡爾積進行創建索引