簡析方差、標准差與數值離散程度


方差(variance): 變量與其均值的差的平方和除以(變量數+1)。

   如有一組數據: [1,2,3,4,5], 其均值就是 (1+2+3+4+5) / 5 = 3

   所以其方差為: ((1-3)^2 + (2-3)^2 +(3-3)^2 + (4-3)^2 + (5-3)^2) /( 5+1) = 1.6666....

  

 

標准差(standard deviation):方差的算術平方根

  

 

方差和標准差反應了一組數據的離散程度:

當方差越小時,數據的離散程度越小

而當方差越大時,數據的離散程度也就越大。

如有兩組數據

A = [1,2,3,4,5]

B=[1,5,7,9,11]

A 的方差為2 、B的方差為11.84 ,從方差的大小比較,var(A)<var(B)

所以B的離散程度比A的離散程度高

 

為什么方差可以體現數據的離散程度?

由公式可知:

當所有的變量值都一樣時,均值等於變量值

所以方差為0,此時離散程度為0。當各個變量值里均值都有一定距離時

方差大於0。

 

例子:

通過使用 from sklearn.datasets.samples_generator import make_blobs 圍繞3個中心點來生成數據集

紅色的點代表 中心點

藍色的點代表 生成點

通過修改make_blobs里面的cluster_std參數來控制 生成點 與 中心點之間的離散程度。而cluster_std參數

對應就是標准差

(1)當標准差為 0.60時:

(2) 當標准差為 0.3時

圖像反映了不同標准差之間數據發布的情況

   

由此也反映了標准差與數值離散程度之間的對應關系。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM