統計方法
pandas 對象有一些統計方法。它們大部分都屬於約簡和匯總統計,用於從 Series 中提取單個值,或從 DataFrame 的行或列中提取一個 Series。
比如 DataFrame.mean(axis=0,skipna=True)
方法,當數據集中存在 NA 值時,這些值會被簡單跳過,除非整個切片(行或列)全是 NA,如果不想這樣,則可以通過 skipna=False
來禁用此功能:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
>>> df
one two
a
1.40
NaN
b
7.10
-
4.5
c NaN NaN
d
0.75
-
1.3
[
4
rows x
2
columns]
>>> df.mean()
one
3.083333
two
-
2.900000
dtype: float64
>>> df.mean(axis
=
1
)
a
1.400
b
1.300
c NaN
d
-
0.275
dtype: float64
>>> df.mean(axis
=
1
,skipna
=
False
)
a NaN
b
1.300
c NaN
d
-
0.275
dtype: float64
|
其他常用的統計方法有:
######################## | ****************************************** |
count | 非 NA 值的數量 |
describe | 針對 Series 或 DF 的列計算匯總統計 |
min , max | 最小值和最大值 |
argmin , argmax | 最小值和最大值的索引位置(整數) |
idxmin , idxmax | 最小值和最大值的索引值 |
quantile | 樣本分位數(0 到 1) |
sum | 求和 |
mean | 均值 |
median | 中位數 |
mad | 根據均值計算平均絕對離差 |
var | 方差 |
std | 標准差 |
skew | 樣本值的偏度(三階矩) |
kurt | 樣本值的峰度(四階矩) |
cumsum | 樣本值的累計和 |
cummin , cummax | 樣本值的累計最大值和累計最小值 |
cumprod | 樣本值的累計積 |
diff | 計算一階差分(對時間序列很有用) |
pct_change | 計算百分數變化 |