估計、偏差和方差


  • 本文首發自公眾號:RAIS

前言

本系列文章為 《Deep Learning》 讀書筆記,可以參看原書一起閱讀,效果更佳。

估計

統計的目的是為了推斷,大量的統計是為了更好的推斷,這就是一種估計,一種根據現有信息對可能性的一種猜測。

  • 點估計:點估計指的是用樣本數據估計總體的參數,估計的結果是一個點的數值,因此叫做點估計。這個定義非常寬泛,\(\hat{\theta}_m=g(x_1, x_2, ..., x_m)\),其中幾乎對 g 沒有什么限制,只是說比較好的 g 會接近真實的 θ。
  • 函數估計:是一種映射關系,如 \(y=f(x)+ϵ\),其中 ϵ 是從 x 中預測不出來的,我們不關心,我們關心的是函數估計 f,函數估計是一種從輸入到輸出的映射關系。

偏差

估計的偏差定義為:\(bias(\hat{\theta}_m)=E(\hat{\theta_m})-\theta\),這很好理解,估計與實際值之間的距離就是偏差,如果偏差為 0,則\(\hat{\theta}\)\(\theta\)的無偏估計,如果在 m 趨近於無窮大時,偏差趨近於 0,則\(\hat{\theta}\)\(\theta\)的漸進無偏。

方差

上面我們用估計量的期望來計算偏差,我們還可以用估計量的方差度量估計的變化程度,我們希望期望這兩個值都較小。

對於高斯分布來說,我們有:

  • 樣本均值 \(\hatμ_m=\frac{1}{m}\sum_{i=1}^mx^{(i)}\) 是高斯均值參數 μ 的無偏估計;
  • 樣本方差 \(\hatσ_m^2=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2\)\(σ^2\) 的有偏估計;
  • 無偏樣本方差 \(\hatσ_m^2=\frac{1}{m-1}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2\)\(σ^2\) 的無偏估計;

無偏樣本方差顯然是比較不錯的,但是並不總是最好的,有時候某一些有偏估計也是很好的。比如在機器學習中,均值標准差就非常有用:

\[SE(\hatμ_m)=\sqrt{Var[\frac{1}{m}\sum_{i=1}^mx^{(i)}]}=\frac{σ}{\sqrt{m}} \]

或者寫成

\[σ_{\overline X}=\sqrt{Var(\overline X)}=\sqrt{\frac{1}{m}Var(X)}=\frac{σ}{\sqrt{m}} \]

均方誤差(MSE)

\[MSE=E[(\hatθ_m-θ)^2]=Bias(\hatθ_m)^2+Var(\hatθ_m) \]

魚和熊掌不可得兼,偏差和方差度量着估計量的兩個不同誤差來源,偏差度量着偏離真實函數或參數的誤差,方差度量着數據上任意特定采樣可能導致的估計期望的偏差,兩個估計,一個偏差大,一個方差大,怎么選擇?選擇 MSE 較小的,因為 MSE 是用來度量泛化誤差的。偏差和方差之和就是均方誤差:

均方誤差

總結

本篇主要介紹了估計、偏差和方差,可以用來正式的刻畫過擬合。

  • 本文首發自公眾號:RAIS


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM