正則化(L1和L2正則)


稀疏性表示數據中心0占比比較大

引西瓜書中P252原文:

 

 對於損失函數后面加入懲罰函數可以降低過擬合的風險,懲罰函數使用L2范數,則稱為嶺回歸,L2范數相當與給w加入先驗,需要要求w滿足某一分布,L2范數表示數據服從高斯分布,而L1范數表示數據服從拉普拉斯分布。從拉普拉斯函數和高斯函數的圖像上看,拉普拉斯函數取到0的概率更大,這樣采用L1范數會有一些取到0

而且在小的數據是,L1比L2的懲罰力度大

 

我們對於最后的目標優化為 min D(w) + λ * R(w),其中R(w)表示正則項,然后我們轉化為求解 min D(w), s.t. R(w) <= η。

 

黃色區域為我們加入的懲罰項,轉化以后相當於一個在黃色范圍內求解最小值的一個過程。若相交為一篇區域,那么我們總能找到一點,在區域內,並且使得D(w)的值最小,最終圖像會相切,其中λ越小限制范圍越大,因為限制約小表明可以取的范圍約大,所以橙色面積越大。

 

從數學公式的角度來說 L1 = |w1| + |w2| + ... + |wn| 導數 wi為1, 而L2 = 1/2 * (w1^2 + w2^2 + ... + wn^2)導數wi 為wi,取學習速率為λ, L1范數為:wi = wi - λ * 1,L2范數為 wi = wi - λ * wi,這樣L1每次減去一個定值,總能減到0,而L2每次取自己的(1-λ),下降比較緩慢

參考鏈接:

https://www.zhihu.com/question/37096933 王小明,ser jamie

https://vimsky.com/article/969.html

《機器學習》 周志華      

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM