一、損失函:
模型的結構風險函數包括了 經驗風險項 和 正則項,如下所示:
二、損失函數中的正則項
1.正則化的概念:
機器學習中都會看到損失函數之后會添加一個額外項,常用的額外項一般有2種,L1正則化和L2正則化。L1和L2可以看做是損失函數的懲罰項,所謂懲罰項是指對損失函數中某些參數做一些限制,以降低模型的復雜度。
L1正則化通過稀疏參數(特征稀疏化,降低權重參數的數量)來降低模型的復雜度;
L2正則化通過降低權重的數值大小來降低模型復雜度。
對於線性回歸模型,使用L1正則化的模型叫做Lasso回歸,使用L2正則化的模型叫做Ridge回歸(嶺回歸)。
一般正則化項前面添加一個系數λ,數值大小需要用戶自己指定,稱權重衰減系數weight_decay,表示衰減的快慢。
2.L1正則化和L2正則化的作用:
·L1正則化可以產生稀疏權值矩陣,即產生一個稀疏模型,可以用於特征選擇。
·L2正則化可以減小參數大小,防止模型過擬合;一定程度上L1也可以防止過擬合
稀疏矩陣的概念:
·在矩陣中,若數值為0的元素數目遠遠超過非0元素的數目時,則該矩陣為稀疏矩陣。與之相反,若非0元素數目占大多數時,則稱該矩陣為稠密矩陣。
3、正則項的直觀理解
引用文檔鏈接:
https://baijiahao.baidu.com/s?id=1621054167310242353&wfr=spider&for=pc
分別從以下角度對L1和L2正則化進行解釋:
1、 優化角度分析
2、 梯度角度分析
3、 圖形角度分析
4、 PRML的圖形角度分析
優化角度分析:
L2正則化的優化角度分析:
即在限定區域找到使得ED(W)最小的權重W。
假設n=2,即只有2個參數w1和w2;作圖如下:
圖中紅色的圓即是限定區域,簡化為2個參數就是w1和w2,限定區域w12+w22≤C即是以原點為圓心的圓。藍色實線和虛線是等高線,外高內低,越靠里面的等高圓ED(W)越小。梯度下降的方向(梯度的反方向-▽ED(W)),即圖上灰色箭頭的方向,由外圓指向內圓的方向
表示;正則項邊界上運動點P1和P2的切線用綠色箭頭表示,法向量用實黑色箭頭表示。切點P1上的切線在梯度下降方向有分量,仍有往負梯度方向運動的趨勢;而切點P2上的法向量正好是梯度下降的方向,切線方向在梯度下降方向無分量,所以往梯度下降方向沒有運動趨勢,已是梯度最小的點。
結論:L2正則項使E最小時對應的參數W變小(離原點的距離更小)
L1正則化的優化角度分析:
在限定區域,找到使ED(w)的最小值。
同上,假設參數數量為2:w1和w2,限定區域為|w1|+|w2|≤C ,即為如下矩形限定區域,限定區域邊界上的點的切向量的方向始終指向w2軸,使得w1=0,所以L1正則化容易使得參數為0,即使參數稀疏化。
梯度角度分析:
L1正則化:
L1正則化的損失函數為:
L1正則項的添加使參數w的更新增加了,sgn(w)為階躍函數,當w大於0,sgn(w)>0,參數w變小;當w小於0時,更新參數w變大,所以總體趨勢使得參數變為0,即特征稀疏化。
L2正則化:
L2正則化的損失函數為:
由上式可以看出,正則化的更新參數相比沒有加正則項的更新參數多了,當w>0時,正則項使得參數增大變慢(減去一個數值,增大的沒那么快),當w<0時,正則項使得參數減小變慢(加上一個數值,減小的沒那么快),總體趨勢變得很小,但不為0。
PRML的圖形角度分析
L1正則化在零點附近具有很明顯的棱角,L2正則化則在零附近是比較光滑的曲線。所以L1正則化更容易使參數為零,L2正則化則減小參數值,如下圖。
L1正則項
L2正則項
以上是根據閱讀百度網友文章做的筆記(其中包括自己的理解),感謝該文檔作者,引用鏈接:
https://baijiahao.baidu.com/s?id=1621054167310242353