- 本文首發自公眾號:RAIS
前言
本系列文章為 《Deep Learning》 讀書筆記,可以參看原書一起閱讀,效果更佳。
估計
統計的目的是為了推斷,大量的統計是為了更好的推斷,這就是一種估計,一種根據現有信息對可能性的一種猜測。
- 點估計:點估計指的是用樣本數據估計總體的參數,估計的結果是一個點的數值,因此叫做點估計。這個定義非常寬泛,\(\hat{\theta}_m=g(x_1, x_2, ..., x_m)\),其中幾乎對 g 沒有什么限制,只是說比較好的 g 會接近真實的 θ。
- 函數估計:是一種映射關系,如 \(y=f(x)+ϵ\),其中 ϵ 是從 x 中預測不出來的,我們不關心,我們關心的是函數估計 f,函數估計是一種從輸入到輸出的映射關系。
偏差
估計的偏差定義為:\(bias(\hat{\theta}_m)=E(\hat{\theta_m})-\theta\),這很好理解,估計與實際值之間的距離就是偏差,如果偏差為 0,則\(\hat{\theta}\)是\(\theta\)的無偏估計,如果在 m 趨近於無窮大時,偏差趨近於 0,則\(\hat{\theta}\)是\(\theta\)的漸進無偏。
方差
上面我們用估計量的期望來計算偏差,我們還可以用估計量的方差度量估計的變化程度,我們希望期望這兩個值都較小。
對於高斯分布來說,我們有:
- 樣本均值 \(\hatμ_m=\frac{1}{m}\sum_{i=1}^mx^{(i)}\) 是高斯均值參數 μ 的無偏估計;
- 樣本方差 \(\hatσ_m^2=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2\) 是 \(σ^2\) 的有偏估計;
- 無偏樣本方差 \(\hatσ_m^2=\frac{1}{m-1}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2\) 是 \(σ^2\) 的無偏估計;
無偏樣本方差顯然是比較不錯的,但是並不總是最好的,有時候某一些有偏估計也是很好的。比如在機器學習中,均值標准差就非常有用:
\[SE(\hatμ_m)=\sqrt{Var[\frac{1}{m}\sum_{i=1}^mx^{(i)}]}=\frac{σ}{\sqrt{m}} \]
或者寫成
\[σ_{\overline X}=\sqrt{Var(\overline X)}=\sqrt{\frac{1}{m}Var(X)}=\frac{σ}{\sqrt{m}} \]
均方誤差(MSE)
\[MSE=E[(\hatθ_m-θ)^2]=Bias(\hatθ_m)^2+Var(\hatθ_m) \]
魚和熊掌不可得兼,偏差和方差度量着估計量的兩個不同誤差來源,偏差度量着偏離真實函數或參數的誤差,方差度量着數據上任意特定采樣可能導致的估計期望的偏差,兩個估計,一個偏差大,一個方差大,怎么選擇?選擇 MSE 較小的,因為 MSE 是用來度量泛化誤差的。偏差和方差之和就是均方誤差:

總結
本篇主要介紹了估計、偏差和方差,可以用來正式的刻畫過擬合。
- 本文首發自公眾號:RAIS
