DataFrame分組和聚合

本文轉載自查看原文 2019-12-03 11:22 731 pandas/ 數據分析

一、分組

1、語法

grouped= df.groupby(by='columns name')
# grouped是一個DataFrameGroupBy對象，是可迭代的(遍歷)
# grouped中的每一個元素都是一個元祖
# 元祖： (索引(分組的值), 分組之后的DataFrame)

2、取值

grouped.count()                 # 獲取分組中非NaN的數量
grouped.count()[['M']]          # 獲取M列索引的值， 注意 [['M']] 結果的type是DataFrame
grouped.count()['M']            # 獲取M列索引的值， 注意 ['M'] 結果的type是Series

3、多個分組

# 多個分組
grouped= df.groupby(by=['columns_name1', 'columns_name2'])

# 獲取分組后的某一部分數據
grouped = df1.groupby(by=['O', 'N'])
grouped.count()['M']
或
grouped['M'].count()

# 對某幾列數據進行分組
grouped = df1['M'].groupby(by=[df1['O'], df1['N']])     # Series
# 或
grouped = df1[['M']].groupby(by=[df1['O'], df1['N']])     # DataFrame
grouped.count()

二、聚合
DataFrameGroupBy對象的聚合方法

函數名         說明
count         分組中非NA的數量
sum           非NA值的和
mean          非NA值的平均值
median        非NA值的中位數
std、var       標准差、方差
min、max       非NA值中的最小值、最大值

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 spark sql的agg函數,作用：在整體DataFrame不分組聚合 Pandas 分組聚合 FastReport分組與聚合 mongodb 分組聚合查詢 Elasticsearch 5.4.3 聚合分組 SQL分組聚合查詢 pandas分組和聚合 Pandas的數據分組以及分組聚合函數操作 mongodb聚合分組分頁 python - django (查詢、聚合、分組)