方差是在概率論和統計學中衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數
。方差可以用來描述變量的波動程度。
方差在統計學和概率分布中各有不同的定義,並有不同的公式。在統計學中,方差用來計算每一個變量(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學采用平均離均差平方和來描述變量的變異程度。總體方差計算公式:
σ 的平方表示總體方差,X 表示變量,μ 表示總體的均值,N 表示總體樣本數量。在實際項目中,總體均值難以得到時,應用樣本統計量替代總體參數,經校正后,樣本方差的計算公式:
σ 的平方表示樣本方差,X 表示變量,{X_i … X_n} 表示樣本均值,N 表示樣本數量。 之所以除以 N-1 而不是 N,是因為這樣能使我們以較小的樣本集更好地逼近總體的標准差,即統計上所謂的 「無偏估計」。由於方差是數據的平方,與檢測值本身相差太大,難以直觀的衡量,所以常用方差開根號換算回來,就成了標准差(Standard Deviation)用 σ 表示
,公式如下:
例如存在以下 python 代碼:
|
|
輸出結果:
|
|
可以看出兩組數據的均值都是 28.0 但是方差以及標准差都是不一樣,方差或標准差的值越大反應了數據波動就越大,反之則越穩定。
標准差在中文壞境中也被稱為均方差,但不同於均方誤差(mean squared error),均方誤差是樣本數據值偏離真實樣本數據值的平方和的平均數,也即誤差平方和的平均數
,計算公式形式上接近方差,它的開方叫均方根誤差,均方根誤差才和標准差形式上接近。例如用 X 表示樣本值,x 表示真實值,那么均方誤差可用以下公式表示:
那么均分根誤差可用以下公式表示:
在機器學習中均方誤差可以用來作為模型的損失函數,用來預測和回歸,均方誤差越小,說明模型預測的越准確,反之則越不准確。總的來說,均方差是數據樣本與均值的關系,而均方誤差是數據樣本與真實值之間的關系,在實際工作中根據需要來選擇使用均方差還是均方誤差。