\(\;\;\;\;\;\)估計,顧名思義就是對變量的估計咯,我們在對變量進行預測時,希望估計值能盡可能地逼近真實值。為了區分真實值和估計值,我們習慣用\(\theta\)表示真實值,用\(\hat \theta\)表示估計值。令\({\rm{\{ }}{x^{(1)}} \cdots {x^{(m)}}{\rm{\} }}\)是\(m\)個獨立同分布的數據點。點估計是這些數據的任意函數:\({\hat \theta _m} = g({x^{(1)}} \cdots {x^{(m)}})\),理想的估計值\(\hat \theta\)將盡可能的接近真實參數\(\theta\)。偏差則用來定義估計值的期望與真實值之間的差距:\(bias({\hat \theta _m}) = E({\hat \theta _m}) - \theta\)。
\(\;\;\;\;\;\)現考慮一組獨立同分布的樣本\({\rm{\{ }}{x^{(1)}} \cdots {x^{(m)}}{\rm{\} }}\)服從高斯分布\(p({x^{(i)}}) = N({x^{(i)}};\mu ,{\sigma ^2})\),其中\(i \in \{ 1, \cdots ,m\}\)。高斯均值的估計即樣本均值:\({\hat \mu _m} = \frac{1}{m}\sum\limits_{i = 1}^m {{x^{(i)}}}\),判斷樣本均值是否為無偏估計,我們可通過計算偏差來確認:
\[\begin{array}{l} bias({{\hat \theta }_m}) = E({{\hat \mu }_m}) - \mu \\ \;\;\;\;\;\;\;\;\;\;\;\;\; = E(\frac{1}{m}\sum\limits_{i = 1}^m {{x^{(i)}}} ) - \mu \\ \;\;\;\;\;\;\;\;\;\;\;\;\; = \frac{1}{m}\sum\limits_{i = 1}^m {E({x^{(i)}})} - \mu \\ \;\;\;\;\;\;\;\;\;\;\;\;\; = \frac{1}{m}\sum\limits_{i = 1}^m \mu - \mu = 0 \end{array} \]
\(\;\;\;\;\;\)從而可以確認樣本均值為高斯均值的無偏估計。同理,我們可通過計算偏差來判斷高斯樣本方差是否為高斯方差的無偏估計:
\[\begin{array}{l} E(\hat \sigma _m^2) = E\left[ {\frac{1}{m}\sum\limits_{i = 1}^m {{{\left( {{x^{(i)}} - {{\hat \mu }_m}} \right)}^2}} } \right]\\ \;\;\;\;\;\;\;\;\;\; = E\left[ {\frac{1}{m}\sum\limits_{i = 1}^m {{{\left( {\left( {{x^{(i)}} - \mu } \right) - \left( {{{\hat \mu }_m} - \mu } \right)} \right)}^2}} } \right]\\ \;\;\;\;\;\;\;\;\;\; = E\left[ {\frac{1}{m}\sum\limits_{i = 1}^m {\left( {{{\left( {{x^{(i)}} - \mu } \right)}^2} - 2\left( {{x^{(i)}} - \mu } \right)\left( {{{\hat \mu }_m} - \mu } \right) + {{\left( {{{\hat \mu }_m} - \mu } \right)}^2}} \right)} } \right]\\ \;\;\;\;\;\;\;\;\;\; = E\left[ {\frac{1}{m}\sum\limits_{i = 1}^m {{{\left( {{x^{(i)}} - \mu } \right)}^2}} - \frac{2}{m}\left( {{{\hat \mu }_m} - \mu } \right)\sum\limits_{i = 1}^m {\left( {{x^{(i)}} - \mu } \right)} + \frac{1}{m}\sum\limits_{i = 1}^m {{{\left( {{{\hat \mu }_m} - \mu } \right)}^2}} } \right]\\ \;\;\;\;\;\;\;\;\;\; = E\left[ {{\sigma ^2} - \frac{2}{m}\left( {{{\hat \mu }_m} - \mu } \right)\left( {m{{\hat \mu }_m} - m\mu } \right) + {{\left( {{{\hat \mu }_m} - \mu } \right)}^2}} \right]\\ \;\;\;\;\;\;\;\;\;\; = E\left[ {{\sigma ^2} - 2{{\left( {{{\hat \mu }_m} - \mu } \right)}^2} + {{\left( {{{\hat \mu }_m} - \mu } \right)}^2}} \right]\\ \;\;\;\;\;\;\;\;\;\; = {\sigma ^2} - E\left[ {{{\left( {{{\hat \mu }_m} - \mu } \right)}^2}} \right]\\ \;\;\;\;\;\;\;\;\;\; = {\sigma ^2} - D\left[ {{{\hat \mu }_m}} \right]\\ \;\;\;\;\;\;\;\;\;\; = {\sigma ^2} - D\left[ {\frac{1}{m}\sum\limits_{i = 1}^m {{x^{(i)}}} } \right]\\ \;\;\;\;\;\;\;\;\;\; = {\sigma ^2} - \frac{1}{{{m^2}}} \cdot m{\sigma ^2} = \frac{{m - 1}}{m}{\sigma ^2} \end{array} \]
即\(bias(\hat \sigma _m^2) = E(\hat \sigma _m^2) - {\sigma ^2} = - \frac{1}{m}{\sigma ^2}\),所以樣本方差\(\hat \sigma _m^2{\rm{ = }}\frac{1}{m}\sum\limits_{i = 1}^m {{{\left( {{x^{(i)}} - {{\hat \mu }_m}} \right)}^2}}\)為\({\sigma ^2}\)有偏估計,無偏樣本方差為\(\hat \sigma _m^2{\rm{ = }}\frac{1}{{m{\rm{ - }}1}}\sum\limits_{i = 1}^m {{{\left( {{x^{(i)}} - {{\hat \mu }_m}} \right)}^2}}\)。
\(\;\;\;\;\;\)以上便是對偏差概念的介紹,偏差可用於判斷估計與實際值之間的誤差,同時也順帶推導了關於樣本方差的無偏估計為什么是除以(n-1)的問題。但是通過偏差有時並不能很好的判斷估計的誤差,我們可以將估計量作為數據樣本的函數,估計量期望的變化程度同樣是衡量估計誤差的重要指標。我們可通過計算估計量的方差來表示:\({\rm{Var}}(\hat \theta )\),標准差表示為:\(SE(\hat \theta )\)。根據上式,可以得到均值的標准差:
\[SE(\hat \theta ) = \sqrt {{\rm{Var}}\left[ {\frac{1}{m}\sum\limits_{i = 1}^m {{x^{(i)}}} } \right]} = \frac{\sigma }{{\sqrt m }} \]
\(\;\;\;\;\;\)關於偏差與方差的區別以及各自在估計誤差中的體現可通過下圖理解,假設紅色的靶心區域是學習算法完美的正確預測值, 藍色點為每個數據集所訓練出的模型對樣本的預測值。當我們從靶心逐漸向外移動時, 預測效果逐漸變差;很容易看出有兩副圖中藍色點比較集中, 另外兩幅中比較分散, 它們描述的是方差的兩種情況. 比較集中的屬於方差小的, 比較分散的屬於方差大的情況;再從藍色點與紅色靶心區域的位置關系, 靠近紅色靶心的屬於偏差較小的情況, 遠離靶心的屬於偏差較大的情況。
\(\;\;\;\;\;\)那模型和偏差、方差之間的對應關系是什么樣呢?以回歸任務為例,看一個極端例子,y=c,不論模型的訓練數據如何變化,學得的函數都不會變,因此f(x;D)的輸出都相同,即模型的穩定性非常好,但是對訓練集的擬合也不是很好,顯然對於測試樣本的預測也不會很准確,這種對訓練集刻畫不足的情況,稱為欠擬合(underfitting)。逐漸增加模型的復雜度,學得的函數對訓練數據的擬合越來越好。
\(\;\;\;\;\;\)但是,對於一個復雜的模型,當我們稍微改變訓練樣本時,學得的函數差距將非常的大。這說明復雜的模型對訓練樣本擬合很好,但是模型的波動性也很大,很可能在測試樣本的表現非常差。可以理解為,復雜的模型將訓練樣本的特性當作全體樣本的通性,將噪聲引入了模型中,這種現象稱之為過擬合(overfitting)。所以我們需要在模型復雜度之間權衡,使偏差和方差得以均衡(trade-off),這樣模型的整體誤差才會最小。
\(\;\;\;\;\;\)這里,我們可以通過均方誤差來權衡偏差與方差,MSE的估計包含了偏差和方差兩項,具有較小的均方誤差可以一定程度上約束偏差和方差。
\[{\rm{MSE = }}E\left[ {{{\left( {{{\hat \theta }_m} - \theta } \right)}^2}} \right] = {\rm{Bias}}{\left( {{{\hat \theta }_m}} \right)^2} + {\rm{Var}}\left( {{{\hat \theta }_m}} \right) \]