Error = Bias^2 + Variance+Noise
誤差的原因:
1.Bias反映的是模型在樣本上的輸出與真實值之間的誤差,即模型本身的精准度,即算法本身的擬合能力。
2.Variance反映的是模型每一次輸出結果與模型輸出期望之間的誤差,即模型的穩定性。反應預測的波動情況。
3.噪聲。
為了幫助理解,搬運知乎上的圖。bias表示偏離中心的程度,variance表示結果的波動程度。在實際的預測當中,我們希望模型的數據不但是low bias,而且還是low variance,但是兩者之間的trade-off導致這種情況很難發生。
欠擬合
當模型的復雜程度過低或者訓練數據過少時候,得到的預測模型不能反映出數據之間正確的關系,會產生較高的偏差,即high bias。
過擬合
當模型的復雜程度過高或者說過度學習了訓練數據中的內在聯系,而導致在使用測試集驗證的時候誤差仍然會很大,但這時候不是由bias引起的,而是由high variance引起的。