L1正則化和L2正則化的理解

本文轉載自查看原文 2020-09-17 18:11 1022

機器學習中，如果參數過多，模型過於復雜，容易造成過擬合（overfit）。即模型在訓練樣本數據上表現的很好，但在實際測試樣本上表現的較差，不具備良好的泛化能力。為了避免過擬合，最常用的一種方法是使用使用正則化，例如 L1 和 L2 正則化。但是，正則化項是如何得來的？其背后的數學原理是什么？L1 正則化和 L2 正則化之間有何區別？本文將給出直觀的解釋。

1. L2 正則化直觀解釋

L2 正則化公式非常簡單，直接在原來的損失函數基礎上加上權重參數的平方和：

$L=E_{in}+\lambda\sum_jw_j^2$

其中，Ein 是未包含正則化項的訓練樣本誤差，λ 是正則化參數，可調。但是正則化項是如何推導的？接下來，我將詳細介紹其中的物理意義。

我們知道，正則化的目的是限制參數過多或者過大，避免模型更加復雜。例如，使用多項式模型，如果使用 10 階多項式，模型可能過於復雜，容易發生過擬合。所以，為了防止過擬合，我們可以將其高階部分的權重 w 限制為 0，這樣，就相當於從高階的形式轉換為低階。

為了達到這一目的，最直觀的方法就是限制 w 的個數，但是這類條件屬於 NP-hard 問題，求解非常困難。所以，一般的做法是尋找更寬松的限定條件：

$\sum_jw_j^2\leq C$

上式是對 w 的平方和做數值上界限定，即所有w 的平方和不超過參數 C。這時候，我們的目標就轉換為：最小化訓練樣本誤差 Ein，但是要遵循 w 平方和小於 C 的條件。

下面，我用一張圖來說明如何在限定條件下，對 Ein 進行最小化的優化。

如上圖所示，藍色橢圓區域是最小化 Ein 區域，紅色圓圈是 w 的限定條件區域。在沒有限定條件的情況下，一般使用梯度下降算法，在藍色橢圓區域內會一直沿着 w 梯度的反方向前進，直到找到全局最優值 wlin。例如空間中有一點 w（圖中紫色點），此時 w 會沿着 -∇Ein 的方向移動，如圖中藍色箭頭所示。但是，由於存在限定條件，w 不能離開紅色圓形區域，最多只能位於圓上邊緣位置，沿着切線方向。w 的方向如圖中紅色箭頭所示。

那么問題來了，存在限定條件，w 最終會在什么位置取得最優解呢？也就是說在滿足限定條件的基礎上，盡量讓 Ein 最小。

我們來看，w 是沿着圓的切線方向運動，如上圖綠色箭頭所示。運動方向與 w 的方向（紅色箭頭方向）垂直。運動過程中，根據向量知識，只要 -∇Ein 與運行方向有夾角，不垂直，則表明 -∇Ein 仍會在 w 切線方向上產生分量，那么 w 就會繼續運動，尋找下一步最優解。只有當 -∇Ein 與 w 的切線方向垂直時，-∇Ein在 w 的切線方向才沒有分量，這時候 w 才會停止更新，到達最接近 wlin 的位置，且同時滿足限定條件。

-∇Ein 與 w 的切線方向垂直，即 -∇Ein 與 w 的方向平行。如上圖所示，藍色箭頭和紅色箭頭互相平行。這樣，根據平行關系得到：

$-\nabla E_{in}+\lambda w=0$

移項，得：

$\nabla E_{in}+\lambda w=0$

這樣，我們就把優化目標和限定條件整合在一個式子中了。也就是說只要在優化 Ein 的過程中滿足上式，就能實現正則化目標。

接下來，重點來了！根據最優化算法的思想：梯度為 0 的時候，函數取得最優值。已知 ∇Ein 是 Ein 的梯度，觀察上式，λw 是否也能看成是某個表達式的梯度呢？

當然可以！λw 可以看成是 1/2λw*w 的梯度：

$\frac{\partial}{\partial w}(\frac12\lambda w^2)=\lambda w$

這樣，我們根據平行關系求得的公式，構造一個新的損失函數：

$E_{aug}=E_{in}+\frac{\lambda}{2}w^2$

之所以這樣定義，是因為對 Eaug 求導，正好得到上面所求的平行關系式。上式中等式右邊第二項就是 L2 正則化項。

這樣，我們從圖像化的角度，分析了 L2 正則化的物理意義，解釋了帶 L2 正則化項的損失函數是如何推導而來的。

2. L1 正則化直觀解釋

L1 正則化公式也很簡單，直接在原來的損失函數基礎上加上權重參數的絕對值：

$L=E_{in}+\lambda\sum_j|w_j|$

我仍然用一張圖來說明如何在 L1 正則化下，對 Ein 進行最小化的優化。

Ein 優化算法不變，L1 正則化限定了 w 的有效區域是一個正方形，且滿足 |w| < C。空間中的點 w 沿着 -∇Ein 的方向移動。但是，w 不能離開紅色正方形區域，最多只能位於正方形邊緣位置。其推導過程與 L2 類似，此處不再贅述。

3. L1 與 L2 解的稀疏性

介紹完 L1 和 L2 正則化的物理解釋和數學推導之后，我們再來看看它們解的分布性。

以二維情況討論，上圖左邊是 L2 正則化，右邊是 L1 正則化。從另一個方面來看，滿足正則化條件，實際上是求解藍色區域與黃色區域的交點，即同時滿足限定條件和 Ein 最小化。對於 L2 來說，限定區域是圓，這樣，得到的解 w1 或 w2 為 0 的概率很小，很大概率是非零的。

對於 L1 來說，限定區域是正方形，方形與藍色區域相交的交點是頂點的概率很大，這從視覺和常識上來看是很容易理解的。也就是說，方形的凸點會更接近 Ein 最優解對應的 wlin 位置，而凸點處必有 w1 或 w2 為 0。這樣，得到的解 w1 或 w2 為零的概率就很大了。所以，L1 正則化的解具有稀疏性。

擴展到高維，同樣的道理，L2 的限定區域是平滑的，與中心點等距；而 L1 的限定區域是包含凸點的，尖銳的。這些凸點更接近 Ein 的最優解位置，而在這些凸點上，很多 wj 為 0。

關於 L1 更容易得到稀疏解的原因，有一個很棒的解釋，請見下面的鏈接：

https://www.zhihu.com/question/37096933/answer/70507353

4. 正則化參數 λ

正則化是結構風險最小化的一種策略實現，能夠有效降低過擬合。損失函數實際上包含了兩個方面：一個是訓練樣本誤差。一個是正則化項。其中，參數 λ 起到了權衡的作用。

以 L2 為例，若 λ 很小，對應上文中的 C 值就很大。這時候，圓形區域很大，能夠讓 w 更接近 Ein 最優解的位置。若 λ 近似為 0，相當於圓形區域覆蓋了最優解位置，這時候，正則化失效，容易造成過擬合。相反，若 λ 很大，對應上文中的 C 值就很小。這時候，圓形區域很小，w 離 Ein 最優解的位置較遠。w 被限制在一個很小的區域內變化，w 普遍較小且接近 0，起到了正則化的效果。但是，λ 過大容易造成欠擬合。欠擬合和過擬合是兩種對立的狀態。

轉自：微信公眾號紅色的石頭

作者：魏晉
鏈接：https://www.zhihu.com/question/26485586/answer/89215997
來源：知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

L1 Norm 和L2 Norm的區別（核心：L2對大數，對outlier更敏感！）：
考慮一個很簡單的最小Norm的優化問題：
MINIMIZE ∥x∥ WITH RESPECT TO Ax=b
假設Ax=b有無數可行解，那么再假設a=(0.5,0.5)和b=(-1,0)都是可行解，那么計算這個兩個向量的L1和L2 Norm，
||a||1=1, ||b||1=1; ||a||2=1/squre(2), ||b||2=1。很明顯，a和b L1 Norm相同，而但是b的L2 Norm卻大於a的L2 Norm。
L2 Norm對大數的懲罰比小數大！因為使用L2 Norm求出來的解是比較均勻的，而L1 Norm常常產生稀疏解。

再從統計概率的角度來看，L1 Norm和L2 Norm其實對向量中值的分布有着不同的先驗假設：

L1是藍色的線，L2是紅色的線，很明顯，L1的分布對極端值更能容忍。
那么如果數據損失項使用L1 Norm，很明顯，L1 Norm對outlier沒有L2 Norm那么敏感； 如果正則化損失項使用L1的話，那么使學習到的參數傾向於稀疏，使用L2 Norm則沒有這種傾向。
實踐中，根據Quaro的data scientist Xavier Amatriain 的經驗，實際應用過程中， L1 nrom幾乎沒有比L2 norm表現好的時候，優先使用L2 norm是比較好的選擇。

理論上講，參數如果服從高斯分布就用l2，拉普拉斯分布就用l1。實際上你也不知道參數該服從什么分布，所以一般如果你需要稀疏性就用l1，比如參數量很大情況，一般不單獨用l2吧，可以l1+l2，不過最終還是看效果…哪個好就用哪個…另外一般框架使用l1，可能也不能保證稀疏性，取決於底層實現…

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 L1正則化與L2正則化的理解 L1和L2正則化。L1為什么能產生稀疏值，L2更平滑 L1,L2正則化與損失正則化項L1和L2的區別 L1、L2正則化詳解 tensorflow 中的L1和L2正則化 L1與L2損失函數和正則化的區別深度學習正則化--L0、L1、L2正則化 L1正則化比L2正則化更易獲得稀疏解的原因學習筆記234—正則化項L1和L2的區別