一、分組
1、語法
grouped= df.groupby(by='columns name') # grouped是一個DataFrameGroupBy對象,是可迭代的(遍歷) # grouped中的每一個元素都是一個元祖 # 元祖: (索引(分組的值), 分組之后的DataFrame)
2、取值
grouped.count() # 獲取分組中非NaN的數量 grouped.count()[['M']] # 獲取M列索引的值, 注意 [['M']] 結果的type是DataFrame grouped.count()['M'] # 獲取M列索引的值, 注意 ['M'] 結果的type是Series
3、多個分組
# 多個分組 grouped= df.groupby(by=['columns_name1', 'columns_name2']) # 獲取分組后的某一部分數據 grouped = df1.groupby(by=['O', 'N']) grouped.count()['M'] 或 grouped['M'].count() # 對某幾列數據進行分組 grouped = df1['M'].groupby(by=[df1['O'], df1['N']]) # Series # 或 grouped = df1[['M']].groupby(by=[df1['O'], df1['N']]) # DataFrame grouped.count()
二、聚合
DataFrameGroupBy對象的聚合方法
函數名 說明
count 分組中非NA的數量
sum 非NA值的和
mean 非NA值的平均值
median 非NA值的中位數
std、var 標准差、方差
min、max 非NA值中的最小值、最大值