要區分這三個概念,需要先講一下損失函數L(Y,f(x))的概念。
損失函數:針對單個具體樣本,表示模型預測值與真實樣本值之間的差距。損失函數越小,說明模型對於該樣本預測越准確。常見損失函數有0-1損失函數、平方損失函數、絕對損失函數、對數損失函數(對數似然損失函數)。
經驗風險:對所有訓練樣本都求一次損失函數,再累加求平均。即,模型f(x)對訓練樣本中所有樣本的預測能力。
所謂經驗風險最小化即對訓練集中的所有樣本點損失函數的平均最小化。經驗風險越小說明模型f(x)對訓練集的擬合程度越好。
期望風險:對所有樣本(包含未知樣本和已知的訓練樣本)的預測能力,是全局概念。(經驗風險則是局部概念,僅僅表示決策函數對訓練數據集里的樣本的預測能力。)
理想的模型(決策)函數應該是讓所有的樣本的損失函數最小(即期望風險最小化)。但是期望風險函數往往不可得,所以用局部最優代替全局最優。這就是經驗風險最小化的理論基礎。
總結經驗風險和期望風險之間的關系:
經驗風險是局部的,基於訓練集所有樣本點損失函數最小化。經驗風險是局部最優,是現實的可求的。
期望風險是全局的,基於所有樣本點損失函數最小化。期望風險是全局最優,是理想化的不可求的。
缺點:只考慮經驗風險的話,會出現過擬合現象,即模型f(x)對訓練集中所有的樣本點都有最好的預測能力,但是對於非訓練集中的樣本數據,模型的預測能力非常不好。怎么辦?這就需要結構風險。
結構風險:對經驗風險和期望風險的折中,在經驗風險函數后面加一個正則化項(懲罰項),是一個大於0的系數lamada。J(f)表示的是模型的復雜度。
經驗風險越小,模型決策函數越復雜,其包含的參數越多,當經驗風險函數小到一定程度就出現了過擬合現象。也可以理解為模型決策函數的復雜程度是過擬合的必要條件,那么我們要想防止過擬合現象的方式,就要破壞這個必要條件,即降低決策函數的復雜度。也即,讓懲罰項J(f)最小化,現在出現兩個需要最小化的函數了。我們需要同時保證經驗風險函數和模型決策函數的復雜度都達到最小化,一個簡單的辦法把兩個式子融合成一個式子得到結構風險函數然后對這個結構風險函數進行最小化。