損失函數———有關L1和L2正則項的理解


一、損失函:

模型的結構風險函數包括了   經驗風險項  和  正則項,如下所示:

 

二、損失函數中的正則項

1.正則化的概念:

      機器學習中都會看到損失函數之后會添加一個額外項,常用的額外項一般有2種,L1正則化和L2正則化。L1和L2可以看做是損失函數的懲罰項,所謂懲罰項是指對損失函數中某些參數做一些限制,以降低模型的復雜度。

     L1正則化通過稀疏參數(特征稀疏化,降低權重參數的數量)來降低模型的復雜度;

     L2正則化通過降低權重的數值大小來降低模型復雜度。

     對於線性回歸模型,使用L1正則化的模型叫做Lasso回歸,使用L2正則化的模型叫做Ridge回歸(嶺回歸)。

 

 

 

 

 

  

一般正則化項前面添加一個系數λ,數值大小需要用戶自己指定,稱權重衰減系數weight_decay,表示衰減的快慢。

2.L1正則化和L2正則化的作用:

                                  ·L1正則化可以產生稀疏權值矩陣,即產生一個稀疏模型,可以用於特征選擇

                                  ·L2正則化可以減小參數大小,防止模型過擬合;一定程度上L1也可以防止過擬合

 

稀疏矩陣的概念:

                        ·在矩陣中,若數值為0的元素數目遠遠超過非0元素的數目時,則該矩陣為稀疏矩陣。與之相反,若非0元素數目占大多數時,則稱該矩陣為稠密矩陣。

3、正則項的直觀理解

引用文檔鏈接:

https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc

分別從以下角度對L1和L2正則化進行解釋:

1、  優化角度分析

2、 梯度角度分析

3、 圖形角度分析

4、 PRML的圖形角度分析

優化角度分析:

L2正則化的優化角度分析:

 

 

              即在限定區域找到使得ED(W)最小的權重W。

  假設n=2,即只有2個參數w1和w2;作圖如下:

 

圖中紅色的圓即是限定區域,簡化為2個參數就是w1和w2,限定區域w12+w22≤C即是以原點為圓心的圓。藍色實線和虛線是等高線,外高內低,越靠里面的等高圓ED(W)越小。梯度下降的方向(梯度的反方向-▽ED(W)),即圖上灰色箭頭的方向,由外圓指向內圓的方向 表示;正則項邊界上運動點P1和P2的切線用綠色箭頭表示,法向量用實黑色箭頭表示。切點P1上的切線在梯度下降方向有分量,仍有往負梯度方向運動的趨勢;而切點P2上的法向量正好是梯度下降的方向,切線方向在梯度下降方向無分量,所以往梯度下降方向沒有運動趨勢,已是梯度最小的點。

結論:L2正則項使E最小時對應的參數W變小(離原點的距離更小)

 

L1正則化的優化角度分析:

 

 

在限定區域,找到使ED(w)的最小值。

同上,假設參數數量為2:w1和w2,限定區域為|w1|+|w2|≤C ,即為如下矩形限定區域,限定區域邊界上的點的切向量的方向始終指向w2軸,使得w1=0,所以L1正則化容易使得參數為0,即使參數稀疏化。

 

梯度角度分析:

L1正則化:

L1正則化的損失函數為:

 

 

L1正則項的添加使參數w的更新增加了,sgn(w)為階躍函數,當w大於0,sgn(w)>0,參數w變小;當w小於0時,更新參數w變大,所以總體趨勢使得參數變為0,即特征稀疏化。

L2正則化:

L2正則化的損失函數為:

 

 

由上式可以看出,正則化的更新參數相比沒有加正則項的更新參數多了,當w>0時,正則項使得參數增大變慢(減去一個數值,增大的沒那么快),當w<0時,正則項使得參數減小變慢(加上一個數值,減小的沒那么快),總體趨勢變得很小,但不為0。

PRML的圖形角度分析

L1正則化在零點附近具有很明顯的棱角,L2正則化則在零附近是比較光滑的曲線。所以L1正則化更容易使參數為零,L2正則化則減小參數值,如下圖。

 

 

L1正則項

 

 L2正則項

以上是根據閱讀百度網友文章做的筆記(其中包括自己的理解),感謝該文檔作者,引用鏈接:

https://baijiahao.baidu.com/s?id=1621054167310242353

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM