最近有在面試一些公司,有被問題關於lr的一些問題,還有包括L1和L2正則的一些問題,回答的不是很好,發現有時候自己明白了,過了一陣子又會忘記,現在整理整理,寫成博客防止以后再次忘記
我們基於lr模型來講正則,首先y=sigmiod(wx+b)這是基本的lr模型。損失函數為0,1交叉熵,
L1正則:
l2 正則:
使用等高線圖來表示原目標函數的圖像為(假定只有兩個參數):

也就是說,當參數 w1與w2w1與w2 取值為圖像中最里面那個紫色圓圈上的值時,可以使得原目標函數最小。 當加上L1正則項之后,目標函數圖像為:

當加上L2正則項之后,目標函數圖像為:

第一個圖中菱形即為 ∑2j=1|wj|=F∑j=12|wj|=F ,而第二個圖中圓形即為 ∑2j=1w2j=F∑j=12wj2=F 。代表這個菱形(圓形)上的點算出來的 ∑2j=1|wj|或∑2j=1w2j∑j=12|wj|或∑j=12wj2 都等於某個值 FF 。此時若要使得目標函數最小,就需要滿足兩個條件:(1)參數值在等高線上的圓圈越來越接近中心的紫色圓圈,(2)菱形越小越好( FF 越小越好)。 那么如何取得一個恰好的值,能夠滿足以上兩個條件呢?我們先來看下下面這個圖(以L1正則化為例):

討論為什么l1正則之后的特征參數是稀疏的?
因為觀察發現**幾乎對於很多原函數等高曲線,和某個菱形相交的時候及其容易相交在坐標軸(比如上圖):
另外一考慮正則項導數的情況,l1正則的倒數不是-1就是1,所以會很容易收斂到0;然而l2正則的倒數是線性函數,w越靠近0的話導數就越小,這會讓w無限趨近於0,但不會收斂到0;
l1正則不可導怎么處理?
坐標軸下降法
參考鏈接: https://www.cnblogs.com/lliuye/p/9354972.html