pandas對象有一些常用的數學和統計的方法,大部分都屬於約簡或匯總統計。
SUM方法
DataFrame對象的sum方法,返回一個含有列小計的Series
>>> df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index = ['a','b','c','d'],columns = ['one','two']) >>> >>> >>> df one two a 1.40 NaN b 7.10 -4.5 c NaN NaN d 0.75 -1.3 >>> df.sum() one 9.25 two -5.80 dtype: float64 >>> df.sum(axis=1) a 1.40 b 2.60 c 0.00 d -0.55 dtype: float64
NA值會自動被踢除(新版本會自動轉換為0)。可以通過skipna選項禁用此功能。
>>> df.sum(axis=1,skipna = False) a NaN b 2.60 c NaN d -0.55 dtype: float64 >>> df.sum(skipna =False) one NaN two NaN dtype: float64
常用的統計方法:
######################## | ****************************************** |
count | 非 NA 值的數量 |
describe | 針對 Series 或 DF 的列計算匯總統計 |
min , max | 最小值和最大值 |
argmin , argmax | 最小值和最大值的索引位置(整數) |
idxmin , idxmax | 最小值和最大值的索引值 |
quantile | 樣本分位數(0 到 1) |
sum | 求和 |
mean | 均值 |
median | 中位數 |
mad | 根據均值計算平均絕對離差 |
var | 方差 |
std | 標准差 |
skew | 樣本值的偏度(三階矩) |
kurt | 樣本值的峰度(四階矩) |
cumsum | 樣本值的累計和 |
cummin , cummax | 樣本值的累計最大值和累計最小值 |
cumprod | 樣本值的累計積 |
diff | 計算一階差分(對時間序列很有用) |
pct_change | 計算百分數變化 |
統計方法的常用選項
axis=None,skipna = True,level=None