統計學之數據的描述性統計(基礎)


數據的描述性統計

一篇筆記,至少我還在努力


 

目錄:

數據的集中趨勢:

  • 眾數,中位數,平均數,分位數,極差
  • 算術平均數,加權平均數,幾何平均數

數據的離中趨勢:

  • 數值型數據:方差,標准差,極差,平均差
  • 順序數據:四分位差
  • 分類數據:異眾比率

相對離散程度:

  • 離散系數

分布的形狀:

  • 偏態系數,峰態系數

 

描述性統計是借助圖表或者總結性的數值來描述數據的統計手段

(所有代碼基於python)

1.數據的集中趨勢:

眾數:一組數據中出現頻次最多的值

1 mode(data)

 

中位數:將數據排序之后位於居中位置的數據

median(data)

 

平均數:所有的數據之和除以數據的個數

mean(data)

分位數:即分位點,是指將一個隨機變量的概率分布范圍分為幾個等份的數值點,常用的有中位數(即二分位數)、四分位數、百分位數等

#將data按df1 和 df2 分組  pd
grouped=data.groupby(['df1','df2'])
#用quantile計算第40%的分位數
grouped['gmv'].quantile(0.4) 

#numpy
s1 = array(data['df3']) np.percentile(s1,0.4)

 

極差:又稱范圍誤差或全距(Range),以R表示,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距,即最大值減最小值后所得之數據

ptp(data)

 


算術平均數:是一組數據的代數和除以數據的項數所得的平均數

幾何平均數:是N個數據的連乘積的開N次方根,(x1*x2*x3*...*xn)^(1/n)。且一組數的幾何平均數恆不大於算術平均數! (x1*x2*x3*...*xn)^(1/n)≤(x1+x2+x3+...+xn)/n 

加權平均數把原始數據按照合理的比例來計算(權是比例份額

  如:若 n個數中,x1出現f1次,x2出現f2次,…,xk出現fk次,那么(x1f1 + x2f2 + ... xkfk)/ (f1 + f2 + ... + fk) 叫做x1,x2,…,xk的加權平均數。f1,f2,…,fk是x1,x2,…,xk的權.

 

 


 

2.數據的離中趨勢:

數值型數據:

方差:是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是各個數據分別與其平均數之差的平方的和的平均數。研究方差即偏離程度有着重要意義。

  或   

 

var(data)

 

標准差:總體各單位標准值與其平均數離差平方的算術平均數的平方根。方差與我們要處理的數據的量綱是不一致的,雖然能很好的描述數據與均值的偏離程度,但是處理結果是不符合我們的直觀思維的。

std(data)

平均差:是表示各個變量值之間差異程度的數值之一。指各個變量值同平均數的離差絕對值的算術平均數。

平均差異大,表明各標志值與算術平均數的差異程度越大,該算術平均數的代表性就越小;平均差越小,表明各標志值與算術平均數的差異程度越小,該算術平均數的代表性就越大。因離差和為零,離差的平均數不能將離差和除以離差的個數求得,而必須將離差取絕對數來消除正負號。平均差是反應各標志值與算術平均數之間的平均差異。

均方差 

均方誤差是反映估計量與被估計量之間差異程度的一種度量,換句話說,參數估計值與參數真值之差的平方的期望值。MSE可以評價數據的變化程度,MSE的值越小,說明預測模型描述實驗數據具有更好的精確度

協方差:

協方差用於衡量兩個變量的總體誤差。而方差是協方差的一種特殊情況,即當兩個變量是相同的情況。協方差表示的是兩個變量的總體的誤差,這與只表示一個變量誤差的方差不同。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那么兩個變量之間的協方差就是正值。 如果兩個變量的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那么兩個變量之間的協方差就是負值。

順序數據

四分位差:是上四分位數(Q3,即位於75%)與下四分位數(Q1,即位於25%)的差。

計算公式為:Q = Q3-Q1
四分位差反映了中間50%數據的 離散程度,其數值越小,說明中間的數據越集中;其數值越大,說明中間的數據越分散。 四分位差不受極值的影響。此外,由於中位數處於數據的中間位置,因此,四分位差的大小在一定程度上也說明了 中位數對一組數據的代表程度。四分位差主要用於測度順序數據的離散程度。對於數值型數據也可以計算四分位差,但不適合分類數據。
四分位數是將一組數據由小到大(或由大到小)排序后,用3個點將全部數據分為4等份,與這3個點位置上相對應的數值稱為四分位數,分別記為Q1(第一四分位數),說明數據中有25%的數據小於或等於Q1,Q2(第二四分位數,即中位數)說明數據中有50%的數據小於或等於Q2、Q3(第三四分位數)說明數據中有75%的數據小於或等於Q3。其中,Q3到Q1之間的距離的差的一半又稱為分半四分位差,記為(Q3-Q1)/2。
 
分類數據:
異眾比率:研究現象離中趨勢的指標之一。異眾比率指的是總體中非眾數次數與總體全部次數之比。換句話說,異眾比率指非眾數組的頻數占總頻數的比例。
 
其中   表示異眾比率,
   
為變量值的總頻數;
   
為眾數組的頻數  [1]  ,m表示數組的數量
 
 

其中,  表示異眾比率,  表示眾數次數,N表示總體單位總數(即總體次數)

異眾比率主要適合測度 分類數據的離散程度,當然,對於順序的數據以及數值型數據也可以計算異眾比率。它雖然也是一個 反映離散程度的相對指標,但是與標准差系數不同。
異眾比率主要用於 衡量眾數對一組數據的代表程度異眾比率越大,說明非眾數組的頻數占總頻數的比重越大,眾數的代表性就越差;異眾比率越小,說明非眾數組的頻數占總頻數的比重越小,眾數的代表性越好。

3、相對離散程度:

離散系數:又稱變異系數。離散系數是測度數據離散程度的相對統計 量,主要是用於比較不同樣本數據的離散程度。離散系數大,說明數據的離散程度也大;離散系數小,說明數據的離散程度也小。

離散系數是衡量資料中各觀測值離散程度的一個統計量。當進行兩個或多個資料離散程度的比較時,如果度量單位與平均數相同,可以直接利用標准差來比較。如果單位和(或)平均數不同時,比較其離散程度就不能采用標准差,而需采用標准差與平均數的比值(相對值)來比較。           表示總體離散系數和樣本離散系數

 

在概率論和統計學中,離散系數(coefficient of variation),是概率分布離散程度的一個歸一化量度,其定義為標准差  與平均值  之比

                 離散系數(coefficient of variation)只在平均值不為零時有定義,而且一般適用於平均值大於零的情況。變異系數也被稱為標准離差率或單位風險。

 


 

4、分布形狀:

偏態系數:又稱偏差系數,說明隨機系列分配不對稱程度的統計參數,用Cs表示。和Cv只能反映頻率密度分配曲線的平均情況和離散程度,而不能反映其對稱(即偏態)情況,所以必須再引入一個參數,即偏差系數Cso。偏態系數絕對值越大,偏斜越嚴重。

  偏態系數以平均值與中位數之差對標准差之比率來衡量偏斜的程度,用SK表示偏斜系數:偏態系數小於0,因為平均數在眾數之左,是一種左偏的分布,又稱為負偏。偏態系數大於0,因為均值在眾數之右,是一種右偏的分布,又稱為正偏。

  簡單偏態系數:

  加權偏態系數:  

 

  左右不對稱即為偏態  。口訣一:看長尾在哪邊就是往哪偏。口訣二:峰左移,右偏態;峰右移,左偏態

  偏態系數絕對值值越大,偏斜程度越厲害。SK< 0 左偏SK> 0 右偏。SK以mean、mode之差與σ的比例來計算的,因此mean>mode,也就是右偏的時候,SK>0

 

峰態系數:

用來反映頻數分布曲線頂端尖峭或扁平程度的指標。有時兩組數據的算術平均數、標准差和偏態系數都相同,但他們分布曲線頂端的高聳程度卻不同

峰度系數可以為負數

正態分布的峰度K=3,均勻分布的峰度K=1.8。kurtosis=K-3 稱為超值峰度。kurtosis>0,尖峰態(leptokurtic),數據集比較分散,極端數值較多。kurtosis<0,低峰態(platykurtic),數據集比較集中,兩側的數據比較少

 

 

 
個人筆記。。。
 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM