數據的描述性統計
一篇筆記,至少我還在努力
目錄:
數據的集中趨勢:
- 眾數,中位數,平均數,分位數,極差
- 算術平均數,加權平均數,幾何平均數
數據的離中趨勢:
- 數值型數據:方差,標准差,極差,平均差
- 順序數據:四分位差
- 分類數據:異眾比率
相對離散程度:
- 離散系數
分布的形狀:
- 偏態系數,峰態系數
描述性統計是借助圖表或者總結性的數值來描述數據的統計手段
(所有代碼基於python)
1.數據的集中趨勢:
眾數:一組數據中出現頻次最多的值
1 mode(data)
中位數:將數據排序之后位於居中位置的數據
median(data)
平均數:所有的數據之和除以數據的個數
mean(data)
分位數:即分位點,是指將一個隨機變量的概率分布范圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等
#將data按df1 和 df2 分組 pd grouped=data.groupby(['df1','df2']) #用quantile計算第40%的分位數 grouped['gmv'].quantile(0.4)
#numpy
s1 = array(data['df3']) np.percentile(s1,0.4)
極差:又稱范圍誤差或全距(Range),以R表示,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距,即最大值減最小值后所得之數據
ptp(data)
算術平均數:是一組數據的代數和除以數據的項數所得的平均數
幾何平均數:是N個數據的連乘積的開N次方根,(x1*x2*x3*...*xn)^(1/n)。且一組數的幾何平均數恆不大於算術平均數! (x1*x2*x3*...*xn)^(1/n)≤(x1+x2+x3+...+xn)/n
加權平均數:把原始數據按照合理的比例來計算(權是比例份額)
如:若 n個數中,x1出現f1次,x2出現f2次,…,xk出現fk次,那么(x1f1 + x2f2 + ... xkfk)/ (f1 + f2 + ... + fk) 叫做x1,x2,…,xk的加權平均數。f1,f2,…,fk是x1,x2,…,xk的權.
2.數據的離中趨勢:
數值型數據:
方差:是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是各個數據分別與其平均數之差的平方的和的平均數。研究方差即偏離程度有着重要意義。
或
var(data)
標准差:總體各單位標准值與其平均數離差平方的算術平均數的平方根。方差與我們要處理的數據的量綱是不一致的,雖然能很好的描述數據與均值的偏離程度,但是處理結果是不符合我們的直觀思維的。
std(data)
平均差:是表示各個變量值之間差異程度的數值之一。指各個變量值同平均數的離差絕對值的算術平均數。
平均差異大,表明各標志值與算術平均數的差異程度越大,該算術平均數的代表性就越小;平均差越小,表明各標志值與算術平均數的差異程度越小,該算術平均數的代表性就越大。因離差和為零,離差的平均數不能將離差和除以離差的個數求得,而必須將離差取絕對數來消除正負號。平均差是反應各標志值與算術平均數之間的平均差異。
均方差:
均方誤差是反映估計量與被估計量之間差異程度的一種度量,換句話說,參數估計值與參數真值之差的平方的期望值。MSE可以評價數據的變化程度,MSE的值越小,說明預測模型描述實驗數據具有更好的精確度
協方差:
協方差用於衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。協方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那么兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那么兩個變量之間的協方差就是負值。
順序數據:
四分位差:是上四分位數(Q3,即位於75%)與下四分位數(Q1,即位於25%)的差。
其中,
表示異眾比率,
表示眾數次數,N表示總體單位總數(即總體次數)
3、相對離散程度:
離散系數:又稱變異系數。離散系數是測度數據離散程度的相對統計 量,主要是用於比較不同樣本數據的離散程度。離散系數大,說明數據的離散程度也大;離散系數小,說明數據的離散程度也小。
離散系數是衡量資料中各觀測值離散程度的一個統計量。當進行兩個或多個資料離散程度的比較時,如果度量單位與平均數相同,可以直接利用標准差來比較。如果單位和(或)平均數不同時,比較其離散程度就不能采用標准差,而需采用標准差與平均數的比值(相對值)來比較。
表示總體離散系數和樣本離散系數
在概率論和統計學中,離散系數(coefficient of variation),是概率分布離散程度的一個歸一化量度,其定義為標准差 與平均值
之比
離散系數(coefficient of variation)只在平均值不為零時有定義,而且一般適用於平均值大於零的情況。變異系數也被稱為標准離差率或單位風險。
4、分布形狀:
偏態系數:又稱偏差系數,說明隨機系列分配不對稱程度的統計參數,用Cs表示。和Cv只能反映頻率密度分配曲線的平均情況和離散程度,而不能反映其對稱(即偏態)情況,所以必須再引入一個參數,即偏差系數Cso。偏態系數絕對值越大,偏斜越嚴重。
偏態系數以平均值與中位數之差對標准差之比率來衡量偏斜的程度,用SK表示偏斜系數:偏態系數小於0,因為平均數在眾數之左,是一種左偏的分布,又稱為負偏。偏態系數大於0,因為均值在眾數之右,是一種右偏的分布,又稱為正偏。
簡單偏態系數:
加權偏態系數:
左右不對稱即為偏態 。口訣一:看長尾在哪邊就是往哪偏。口訣二:峰左移,右偏態;峰右移,左偏態
偏態系數絕對值值越大,偏斜程度越厲害。SK< 0 左偏SK> 0 右偏。SK以mean、mode之差與σ的比例來計算的,因此mean>mode,也就是右偏的時候,SK>0
峰態系數:
用來反映頻數分布曲線頂端尖峭或扁平程度的指標。有時兩組數據的算術平均數、標准差和偏態系數都相同,但他們分布曲線頂端的高聳程度卻不同
峰度系數可以為負數
正態分布的峰度K=3,均勻分布的峰度K=1.8。kurtosis=K-3 稱為超值峰度。kurtosis>0,尖峰態(leptokurtic),數據集比較分散,極端數值較多。kurtosis<0,低峰態(platykurtic),數據集比較集中,兩側的數據比較少
個人筆記。。。