L1、L2正則化詳解


正則化是一種回歸的形式,它將系數估計(coefficient estimate)朝零的方向進行約束、調整或縮小。也就是說,正則化可以在學習過程中降低模型復雜度和不穩定程度,從而避免過擬合的危險。

一、數學基礎

1. 范數

范數是衡量某個向量空間(或矩陣)中的每個向量以長度或大小。范數的一般化定義:對實數p>=1, 范數定義如下:
  • L1范數
    當p=1時,是L1范數,其表示某個向量中所有元素絕對值的和。
  • L2范數
    當p=2時,是L2范數, 表示某個向量中所有元素平方和再開根, 也就是歐幾里得距離公式。

2. 拉普拉斯分布

如果隨機變量的概率密度函數分布為:

 
那么它就是拉普拉斯分布。其中,μ 是數學期望,b > 0 是振幅。如果 μ = 0,那么,正半部分恰好是尺度為 1/2 的指數分布。
 
拉普拉斯分布的概率密度函數

3. 高斯分布

又叫正態分布,若隨機變量X服從一個數學期望為μ、標准方差為σ2的高斯分布,記為:X∼N(μ,σ2),其概率密度函數為:
其概率密度函數為正態分布的期望值μ決定了其位置,其標准差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標准正態分布。
 
高斯分布的概率密度函數

還有涉及極大似然估計、概率論相關的先驗和后驗相關概率, 為了控制篇幅, 本文就不詳細介紹, wiki百科和百度百科都講得很清楚。

二、正則化解決過擬合問題

正則化通過降低模型的復雜性, 達到避免過擬合的問題。 正則化是如何解決過擬合的問題的呢?從網上找了很多相關文章, 下面列舉兩個主流的解釋方式。

原因1:來自知乎上一種比較直觀和簡單的理解, 模型過於復雜是因為模型嘗試去兼顧各個測試數據點, 導致模型函數如下圖,處於一種動盪的狀態, 每個點的到時在某些很小的區間里,函數值的變化很劇烈。這就意味着函數在某些小區間里的導數值(絕對值)非常大,由於自變量值可大可小,所以只有系數足夠大,才能保證導數值很大。
 
而加入正則能抑制系數過大的問題。如下公式, 是嶺回歸的計算公式。

如果發生過擬合, 參數θ一般是比較大的值, 加入懲罰項后, 只要控制λ的大小,當λ很大時,θ1到θn就會很小,即達到了約束數量龐大的特征的目的。

原因二:從貝葉斯的角度來分析, 正則化是為模型參數估計增加一個先驗知識,先驗知識會引導損失函數最小值過程朝着約束方向迭代。 L1正則是拉普拉斯先驗,L2是高斯先驗。整個最優化問題可以看做是一個最大后驗估計,其中正則化項對應后驗估計中的先驗信息,損失函數對應后驗估計中的似然函數,兩者的乘積即對應貝葉斯最大后驗估計。
給定訓練數據, 貝葉斯方法通過最大化后驗概率估計參數θ:

說明:P(θ)是參數向量θ的先驗概率。

下面我們從最大后驗估計(MAP)的方式, 推導下加入L1和L2懲罰項的Lasso和嶺回歸的公式。
首先我們看下最小二乘公式的推導(公式推導截圖來自知乎大神)

這個是通過最大似然估計的方法, 推導出線性回歸最小二乘計算公式。
  • 假設1: w參數向量服從高斯分布
    以下為貝葉斯最大后驗估計推導: 

     
    最終的公式就是嶺回歸計算公式。與上面最大似然估計推導出的最小二乘相比,最大后驗估計就是在最大似然估計公式乘以高斯先驗, 這里就理解前面L2正則就是加入高斯先驗知識。 
  • 假設2: w參數服從拉普拉斯分布
    以下為貝葉斯最大后驗估計推導:

     
    最終的公式就是Lasso計算公式。與上面最大似然估計推導出的最小二乘相比,最大后驗估計就是在最大似然估計公式乘以拉普拉斯先驗, 這里就理解前面L1正則就是加入拉普拉斯先驗知識。 

L1和L2正則化的比較

為了幫助理解,我們來看一個直觀的例子:假定x僅有兩個屬性,於是無論嶺回歸還是Lasso接觸的w都只有兩個分量,即w1,w2,我們將其作為兩個坐標軸,然后在圖中繪制出兩個式子的第一項的”等值線”,即在(w1,w2)空間中平方誤差項取值相同的點的連線。再分別繪制出L1范數和L2范數的等值線,即在(w1,w2)空間中L1范數取值相同的點的連線,以及L2范數取值相同的點的連線(如下圖所示)。


L1正則化比L2正則化更易於得到稀疏解
L1正則化比L2正則化更易於得到稀疏解

嶺回歸與Lasso的解都要在平方誤差項與正則化項之間折中,即出現在圖中平方誤差項等值線與正則化項等值線相交處。而由上圖可以看出,采用L1范數時平方誤差項等值線與正則化項等值線的交點常出現在坐標軸上,即w1或w2為0,而在采用L2范數時,兩者的交點常出現在某個象限中,即w1或w2均非0。

這說明了嶺回歸的一個明顯缺點:模型的可解釋性。它將把不重要的預測因子的系數縮小到趨近於 0,但永不達到 0。也就是說,最終的模型會包含所有的預測因子。但是,在 Lasso 中,如果將調整因子 λ 調整得足夠大,L1 范數懲罰可以迫使一些系數估計值完全等於 0。因此,Lasso 可以進行變量選擇,產生稀疏模型。注意到w取得稀疏解意味着初始的d個特征中僅有對應着w的非零分量的特征才會出現在最終模型中,於是求解L1范數正則化的結果時得到了僅采用一部分初始特征的模型;換言之,基於L1正則化的學習方法就是一種嵌入式特征選擇方法,其特征選擇過程和學習器訓練過程融為一體,同時完成。

總結

  1. L2 regularizer :使得模型的解偏向於范數較小的 W,通過限制 W 范數的大小實現了對模型空間的限制,從而在一定程度上避免了過擬合(因為一般認為參數值小的模型比較簡單,能適應不同的數據集,也在一定程度上避免了過擬合現象。可以設想一下對於一個線性回歸方程,若參數很大,那么只要數據偏移一點點,就會對結果造成很大的影響;但如果參數足夠小,數據偏移得多一點也不會對結果造成什么影響,專業一點的說法是『抗擾動能力強』) 。不過 ridge regression 並不具有產生稀疏解的能力,得到的系數仍然需要數據中的所有特征才能計算預測結果,從計算量上來說並沒有得到改觀。
  2. L1 regularizer :它的優良性質是能產生稀疏性,導致 W 中許多項變成零。 稀疏的解除了計算量上的好處之外,更重要的是更具有“可解釋性”。

參考鏈接:https://www.jianshu.com/p/c9bb6f89cfcc


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM