損失函數———有關L1和L2正則項的理解

本文轉載自查看原文 2019-09-05 16:09 892 深度學習權重參數正則化

一、損失函：

模型的結構風險函數包括了經驗風險項和正則項，如下所示：

二、損失函數中的正則項

1.正則化的概念：

機器學習中都會看到損失函數之后會添加一個額外項，常用的額外項一般有2種，L1正則化和L2正則化。L1和L2可以看做是損失函數的懲罰項，所謂懲罰項是指對損失函數中某些參數做一些限制，以降低模型的復雜度。

L1正則化通過稀疏參數（特征稀疏化，降低權重參數的數量）來降低模型的復雜度；

L2正則化通過降低權重的數值大小來降低模型復雜度。

對於線性回歸模型，使用L1正則化的模型叫做Lasso回歸，使用L2正則化的模型叫做Ridge回歸（嶺回歸）。

一般正則化項前面添加一個系數λ，數值大小需要用戶自己指定，稱權重衰減系數weight_decay，表示衰減的快慢。

2.L1正則化和L2正則化的作用：

·L1正則化可以產生稀疏權值矩陣，即產生一個稀疏模型，可以用於特征選擇。

·L2正則化可以減小參數大小，防止模型過擬合；一定程度上L1也可以防止過擬合

稀疏矩陣的概念：

·在矩陣中，若數值為0的元素數目遠遠超過非0元素的數目時，則該矩陣為稀疏矩陣。與之相反，若非0元素數目占大多數時，則稱該矩陣為稠密矩陣。

3、正則項的直觀理解

引用文檔鏈接：

https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc

分別從以下角度對L1和L2正則化進行解釋：

1、優化角度分析

2、梯度角度分析

3、圖形角度分析

4、 PRML的圖形角度分析

優化角度分析：

L2正則化的優化角度分析：

即在限定區域找到使得E_D（W）最小的權重W。

假設n=2,即只有2個參數w1和w2;作圖如下：

圖中紅色的圓即是限定區域，簡化為2個參數就是w₁和w₂，限定區域w₁²+w₂²≤C即是以原點為圓心的圓。藍色實線和虛線是等高線，外高內低，越靠里面的等高圓E_D（W）越小。梯度下降的方向（梯度的反方向-▽E_D（W）），即圖上灰色箭頭的方向，由外圓指向內圓的方向表示；正則項邊界上運動點P1和P2的切線用綠色箭頭表示，法向量用實黑色箭頭表示。切點P1上的切線在梯度下降方向有分量，仍有往負梯度方向運動的趨勢；而切點P2上的法向量正好是梯度下降的方向，切線方向在梯度下降方向無分量，所以往梯度下降方向沒有運動趨勢，已是梯度最小的點。