參考博客:https://zhuanlan.zhihu.com/p/35356992
https://zhuanlan.zhihu.com/p/25707761
https://www.zhihu.com/question/37096933/answer/70426653
首先正則化項一般是模型復雜度的單調遞增函數,模型越復雜,正則化的值會越大。
正則化是結構風險最小化的一種策略實現,在經驗風險最小化的基礎上(也就是訓練誤差最小化),盡可能采用簡單的模型,以此提高泛化預測精度。
經驗風險較小的模型可能較復雜,這時會使正則化項變大。正則化的作用就是選擇經驗風險和模型復雜度同時較小的模型。
同時也符合奧卡姆剃刀原理:在所有可能選擇的模型中,能夠很好解釋數據並且十分簡單才是好的模型。通過降低模型的復雜度,得到更小的泛化誤差,降低過擬合程度。
h(w)是目標函數 f(w)是沒有加正則化的目標函數 c|w|是L1正則項,要是0點成為最可能的點,因為在0點處不可導,但是只需讓0點左右的導數異號即可。
最終解的:
,所以只要滿足這個條件,0點都是最值點。
兩種 regularization 能不能把最優的 w變成 0,取決於原先的損失函數在 0 點處的導數。
如果本來導數不為 0,那么施加 L2 regularization 后導數依然不為 0,最優的 x 也不會變成 0。
而施加 L1 regularization 時,只要 regularization 項的系數 C 大於原先損失函數在 0 點處的導數的絕對值,x = 0 就會變成一個極小值點。
作者:王贇 Maigo
鏈接:https://www.zhihu.com/question/37096933/answer/70426653
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
、