pandas提供了一個靈活高效的groupby功能,它使你能以一種自然的方式對數據集進行切片、切塊、摘要
等操作。根據一個或多個鍵(可以是函數、數組或DataFrame列名)拆分pandas對象。計算分組摘要統
計,如計數、平均值、標准差,或用戶自定義函數。對DataFrame的列應用各種各樣的函數。應用組內轉換
或其他運算,如規格化、線性回歸、排名或選取子集等。計算透視表或交叉表。執行分位數分析以及其他分
組分析。
groupby分組函數:
返回值:返回重構格式的DataFrame,特別注意,groupby里面的字段內的數據重構后都會變成索引
groupby(),一般和sum()、mean()一起使用,如下例:
先自定義生成數組
應用groupby,分組鍵均為Series(譬如df[‘xx’]),實際上分組鍵可以是任何長度適當的數組
對分組進行迭代
對group by后的內容進行操作,可轉換成字典
groupby默認是在axis=0上進行分組的,通過設置也可以在其他任何軸上進行分組
對於大數據,很多情況是只需要對部分列進行聚合