pandas.DataFrame的groupby()方法是一個特別常用和有用的方法。讓我們快速掌握groupby()方法的基礎使用,從此數據分析又多一法寶。
首先導入package:
import pandas as pd import numpy as np
groupby的最基本操作
df = pd.DataFrame({'A':[1,2,3,1],'B':[2,3,3,6],'C':[3,1,5,7]})
df

按照A列來進行分組(其實說白了就是將A列中重復的值和成同一個值,然后把A當成索引來進行重新的數據分組)
df.groupby('A').mean() #mean是取平均值

df.groupby('A').sum() #sum是求和

df.groupby(['A']).first() #取第一個出現的數據

df.groupby(['A']).last() #取最后一個出現的數據

也可以按照多組進行分組
df.groupby(['A','B']).sum()

統計數據的數量
size跟count的區別: size計數時包含NaN值,而count不包含NaN值
df = pd.DataFrame({'A':[1,2,3,1],'B':[2,3,3,6],'C':[3,np.nan,5,7]})
df

df.groupby(['A']).count()

df.groupby(['A']).size()

