l1 和l2正則詳解


最近有在面試一些公司,有被問題關於lr的一些問題,還有包括L1和L2正則的一些問題,回答的不是很好,發現有時候自己明白了,過了一陣子又會忘記,現在整理整理,寫成博客防止以后再次忘記

我們基於lr模型來講正則,首先y=sigmiod(wx+b)這是基本的lr模型。損失函數為0,1交叉熵,

 

 

 

 

L1正則:

 

l2 正則: 

使用等高線圖來表示原目標函數的圖像為(假定只有兩個參數):

 也就是說,當參數 w1w2w1與w2 取值為圖像中最里面那個紫色圓圈上的值時,可以使得原目標函數最小。   當加上L1正則項之后,目標函數圖像為:

  當加上L2正則項之后,目標函數圖像為:

  第一個圖中菱形即為 2j=1|wj|=F∑j=12|wj|=F ,而第二個圖中圓形即為 2j=1w2j=F∑j=12wj2=F 。代表這個菱形(圓形)上的點算出來的 2j=1|wj|2j=1w2j∑j=12|wj|或∑j=12wj2 都等於某個值 FF 。此時若要使得目標函數最小,就需要滿足兩個條件:(1)參數值在等高線上的圓圈越來越接近中心的紫色圓圈,(2)菱形越小越好( FF 越小越好)。   那么如何取得一個恰好的值,能夠滿足以上兩個條件呢?我們先來看下下面這個圖(以L1正則化為例):

討論為什么l1正則之后的特征參數是稀疏的?

因為觀察發現**幾乎對於很多原函數等高曲線,和某個菱形相交的時候及其容易相交在坐標軸(比如上圖): 

另外一考慮正則項導數的情況,l1正則的倒數不是-1就是1,所以會很容易收斂到0;然而l2正則的倒數是線性函數,w越靠近0的話導數就越小,這會讓w無限趨近於0,但不會收斂到0;

 

l1正則不可導怎么處理?

 

坐標軸下降法

 

 

 

 

 

 

 

參考鏈接: https://www.cnblogs.com/lliuye/p/9354972.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM