pandas 常用統計方法


統計方法

pandas 對象有一些統計方法。它們大部分都屬於約簡和匯總統計,用於從 Series 中提取單個值,或從 DataFrame 的行或列中提取一個 Series。

比如 DataFrame.mean(axis=0,skipna=True) 方法,當數據集中存在 NA 值時,這些值會被簡單跳過,除非整個切片(行或列)全是 NA,如果不想這樣,則可以通過 skipna=False 來禁用此功能:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
>>> df
     one  two
1.40  NaN
7.10 - 4.5
c   NaN  NaN
0.75 - 1.3
 
[ 4 rows x 2 columns]
>>> df.mean()
one    3.083333
two   - 2.900000
dtype: float64
>>> df.mean(axis = 1 )
a    1.400
b    1.300
c      NaN
d   - 0.275
dtype: float64
>>> df.mean(axis = 1 ,skipna = False )
a      NaN
b    1.300
c      NaN
d   - 0.275
dtype: float64

其他常用的統計方法有:

######################## ******************************************
count 非 NA 值的數量
describe 針對 Series 或 DF 的列計算匯總統計
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整數)
idxmin , idxmax 最小值和最大值的索引值
quantile 樣本分位數(0 到 1)
sum 求和
mean 均值
median 中位數
mad 根據均值計算平均絕對離差
var 方差
std 標准差
skew 樣本值的偏度(三階矩)
kurt 樣本值的峰度(四階矩)
cumsum 樣本值的累計和
cummin , cummax 樣本值的累計最大值和累計最小值
cumprod 樣本值的累計積
diff 計算一階差分(對時間序列很有用)
pct_change 計算百分數變化


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM