DataFrame分組和聚合


一、分組

1、語法

grouped= df.groupby(by='columns name')
# grouped是一個DataFrameGroupBy對象,是可迭代的(遍歷)
# grouped中的每一個元素都是一個元祖
# 元祖: (索引(分組的值), 分組之后的DataFrame)

2、取值

grouped.count()                 # 獲取分組中非NaN的數量
grouped.count()[['M']]          # 獲取M列索引的值, 注意 [['M']] 結果的type是DataFrame
grouped.count()['M']            # 獲取M列索引的值, 注意 ['M'] 結果的type是Series

3、多個分組

# 多個分組
grouped= df.groupby(by=['columns_name1', 'columns_name2'])

# 獲取分組后的某一部分數據
grouped = df1.groupby(by=['O', 'N'])
grouped.count()['M']
或
grouped['M'].count()

# 對某幾列數據進行分組
grouped = df1['M'].groupby(by=[df1['O'], df1['N']])     # Series
#
grouped = df1[['M']].groupby(by=[df1['O'], df1['N']])     # DataFrame
grouped.count()

二、聚合
DataFrameGroupBy對象的聚合方法

函數名         說明
count         分組中非NA的數量
sum           非NA值的和
mean          非NA值的平均值
median        非NA值的中位數
std、var       標准差、方差
min、max       非NA值中的最小值、最大值

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM