機器學習中正則化的理解


首先述說什么是正則化,

正則化是結構風險最小化策略的實現,是在經驗風險上加上一個正則項(regularizer)或罰項(penalty  term)。是模型選擇的典型方法。正則化項一般是模型復雜度的單調遞增函數,模型越復雜,正則化值越大。比較常用的正則化項有模型參數向量的范數,l1-norm、l2-norm......

 

 

 

第1項經驗風險較小的模型可能比較復雜(非零參數多),這是第2項的模型復雜度會較大。正則化的作用是選擇經驗風險與模型復雜度同時較小的模型。

用奧卡姆剃刀原理解釋:在模型選擇時,能夠很好地解釋已知數據並且十分簡單的模型才是應該選擇的模型。

從貝葉斯估計角度來看:正則項對應於模型的先驗概率,可以假設復雜的模型具有較小的先驗概率,而簡單的模型具有加大的先驗概率。(類似奧卡姆剃刀解釋)

                            ---《統計學習方法》

正則化的理解:

正則化就是對最小化經驗誤差函數上加約束,這樣的約束可以解釋為先驗知識(正則化參數等價於對參數引入先驗分布)。

約束有引導作用,在優化誤差函數的時候傾向於選擇滿足約束的梯度減少的方向,使最終的解傾向於符合先驗知識(如一般的l-norm先驗,表示原問題更可能是比較簡單的,這樣的優化傾向於產生參數值量級小的解,一般對應於稀疏參數的平滑解)。

同時正則化,解決了逆問題的不適定性,產生的解是存在,唯一同時也依賴於數據的,噪聲對不適定的影響就弱,解就不會過擬合,而且如果先驗(正則化)合適,則解就傾向於是符合真解(更不會過擬合了),即使訓練集中彼此間不相關的樣本數很少。

正則化大概有兩個功能:

1,從模型修正上看,起了一個trade-off作用,用於平衡學習過程中兩個基本量,名字諸如bias-variance、擬合能力-泛化能力、損失函數-推廣能力、經驗風險-結構風險等等;

2,從模型求解上看,正則化提供了一種唯一解的可能,眾所周知,光用最小二乘擬合可能出現無數組解,加個L1或L2正則化項能有唯一解,即不適定性


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM