機器學習筆記--模型的方差與偏差


什么是模型的方差和偏差

我們經常用過擬合、欠擬合來定性地描述模型是否很好地解決了特定的問題。從定量的角度來說,可以用模型的偏差(Bias)與方差(Variance)來描述模型的性能。在有監督學習中,模型的期望泛化誤差可以分解成三個基本量的和---偏差、方差和噪聲。

偏差、方差和噪聲

1)使用文字描述的方式

我們知道,模型在不同訓練集上學得的結果很可能不同,即便這些訓練集是來自同一個分布。

偏差:指的是由所有采樣得到的大小為\(m\)的訓練數據集訓練出的所有模型的輸出的平均值和真實結果之間的差異,度量了模型的期望預測與真實結果的偏離程度,即刻畫了模型本身的擬合能力。偏差通常是由於我們對模型做了錯誤的假設所導致的,比如真實模型是某個二次函數,但我們假設模型是一次函數。由偏差帶來的誤差通常在訓練誤差上就能體現出來。

方差:指的是由所有采樣得到的大小為\(m\)的訓練數據集訓練出的所有模型的輸出的方差,度量了同樣大小的訓練集的變動所導致的學習性能的變化,即刻畫了數據擾動對模型所造成的影響。方差通常是由於模型的復雜度相對於訓練樣本數\(m\)過高導致的,比如一共有100個訓練樣本,而我們假設模型是階數不大於 200的多項式函數。由方差帶來的誤差通常體現在測試誤差相對於訓練誤差的增量上,換句話說就是體現為訓練誤差可能很小,但是測試誤差卻很大。

噪聲:則表達了在當前任務上任何模型所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度。

上述內容說明,模型的泛化性能是由模型本身的擬合能力、數據的充分性以及學習任務本身的難度所共同決定的。給定學習任務,為了取得好的泛化性能,則需使偏差較小,即能夠充分擬合數據,並且使方差較小,即使得數據擾動產生的影響小。

2)使用數學公式描述的方式

模型的期望泛化誤差可以分解成三個基本量的和---偏差、方差和噪聲,即:

\[E(f; D) = bias^2(x) + var(x) + \epsilon^2 \]

注:《機器學習》-周志華,有上面公式的推導過程

此時,對於測試樣本\(\pmb{x}\),令\(y_D\)\(\pmb{x}\)在數據集中的標記,\(y\)\(\pmb{x}\)的真實標記,\(f(\pmb{x}; D)\)為訓練集\(D\)上學得模型\(f\)\(\pmb{x}\)上的預測輸出。

以回歸任務為例,模型的期望預測為:\(\overline{f}(\pmb{x})=E_D[f(\pmb{x};D)]\)

使用樣本數相同的不同訓練集產生的方差為:\(var(\pmb{x})=E_D[(f(\pmb{x};D)-\overline{f}(\pmb{x}))^2]\)

期望輸出與真實標記的差別稱為偏差 (bias)為:\(bias^2(\pmb{x})=(\overline{f}(\pmb{x})-y)^2\)

噪聲為:\(\epsilon=E_D[(y_D-y)^2]\)

3)無圖無真相

上面的定義可能不夠直觀,為了更清晰的理解偏差和方差, 我們用一個各種地方經常看到的射擊的例子,對照上邊的描述可以更好的理解這二者的區別和聯系。假設一次射擊就是一個機器學習模型對一個樣本進行預測。射中靶心位置代表預測准確,偏離靶心越遠代表預測誤差越大。我們通過\(n\)次采樣得到\(n\)個大小為\(m\)的訓練樣本集合,訓練出\(n\)個模型,對同一個樣本做預測,相當於我們做了\(n\)次射擊,射擊結果如圖1所示。我們最期望的結果就是左上圖的結果,射擊結果又准確又集中,說明模型的偏差和方差都很小;右上圖雖然射擊結果的中心在靶心周圍,但分布比較分散,說明模型的偏差較小但方差較大;同理,左下圖說明模型方差較小,偏差較大;右下圖說明模型方差較大,偏差也較大。


圖1 方差和偏差

一般來說,偏差和方差是有沖突的,正如上面的公式所述,偏差、方差和期望泛化誤差之間的關系是偏差一方差的權衡 (bias-variance trade-off) 。如果一個學習模型被稱為測試性能好,那么要求該模型有較小的方差和較小的偏差。這就會涉及權衡的問題,因為直覺上我們會選擇有極小偏差但可能是很大方差的方法(例如,畫一條通過所有訓練觀測值的曲線)或追求小方差卻大偏差的方法(對數據擬合一條水平線) 。在現實問題中,\(f\)一般是未知的,對一個學習模型來說是不可能精確地計算期望泛化誤差、偏差及方差。然而,需要始終銘記偏差和方差的權衡。挑戰在於如何找到一個方法使方差和偏差同時很小。至於使用什么方法,未完待續_......

參考來源:
1)機器學習 - 周志華
2)統計學習導論-基於R應用
3)百面機器學習:算法工程師帶你去


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM