L1和L2正則都是比較常見和常用的正則化項,都可以達到防止過擬合的效果。L1正則化的解具有稀疏性,可用於特征選擇。L2正則化的解都比較小,抗擾動能力強。
L2正則化
對模型參數的L2正則項為
即權重向量中各個元素的平方和,
通常取1/2。L2正則也經常被稱作“權重衰減”(weight decay)和“嶺回歸”。
設帶L2正則化的損失函數:
假設損失函數在二維上求解,則可以畫出圖像
彩色實線是的等值線,黑色實線是L2正則的等值線。二維空間(權重向量只有
和
)上,L2正則項的等值線是圓,與
的等值線相交時
或
等於零的概率很小。所以使用L2正則項的解不具有稀疏性。在求解過程中,L2通常傾向讓權值盡可能小,最后構造一個所有參數都比較小的模型。因為一般認為參數值小的模型比較簡單,能適應不同的數據集,也在一定程度上避免了過擬合現象。參數足夠小,數據偏移得多一點也不會對結果造成什么影響,可以說“抗擾動能力強”。
L1正則化
對模型參數的L1正則項為
設帶L1正則化的損失函數
假設損失函數在二維上求解,則可以畫出圖像
彩色實線是的等值線,黑色實線是L1正則的等值線。二維空間(權重向量只有
和
)上,L1正則項的等值線是方形,方形與
的等值線相交時相交點為頂點的概率很大,所以
或
等於零的概率很大。所以使用L1正則項的解具有稀疏性。
推廣到更大維度空間也是同樣道理,L2正則項的等值線或等值面是比較平滑的,而L1正則項的等值線或等值面是比較尖銳的,所以這些突出的點與接觸的機會更大,而在這些突出的點上,會有很多權值等於0。
由L1正則化導出的稀疏性質已被廣泛用於特征選擇,特征選擇可以從可用的特征子集中選擇有意義的特征。
參考資料:
http://blog.csdn.net/zouxy09/article/details/24971995