pandas(三)匯總和計算描述統計


pandas對象有一些常用的數學和統計的方法,大部分都屬於約簡或匯總統計。

SUM方法

DataFrame對象的sum方法,返回一個含有列小計的Series

>>> df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = ['a','b','c','d'],columns = ['one','two'])
>>>
>>>
>>> df
    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3
>>> df.sum()
one    9.25
two   -5.80
dtype: float64
>>> df.sum(axis=1)
a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

NA值會自動被踢除(新版本會自動轉換為0)。可以通過skipna選項禁用此功能。

>>> df.sum(axis=1,skipna = False)
a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64
>>> df.sum(skipna =False)
one   NaN
two   NaN
dtype: float64

 

常用的統計方法:

######################## ******************************************
count 非 NA 值的數量
describe 針對 Series 或 DF 的列計算匯總統計
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整數)
idxmin , idxmax 最小值和最大值的索引值
quantile 樣本分位數(0 到 1)
sum 求和
mean 均值
median 中位數
mad 根據均值計算平均絕對離差
var 方差
std 標准差
skew 樣本值的偏度(三階矩)
kurt 樣本值的峰度(四階矩)
cumsum 樣本值的累計和
cummin , cummax 樣本值的累計最大值和累計最小值
cumprod 樣本值的累計積
diff 計算一階差分(對時間序列很有用)
pct_change 計算百分數變化

統計方法的常用選項

axis=None,skipna = True,level=None


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM