L1 和L2正則化在機器學習里面的應用,拉普拉斯分布和高斯分布


正則化是為了防止過擬合。

1. 范數

范數是衡量某個向量空間(或矩陣)中的每個向量以長度或大小。 

范數的一般化定義:對實數p>=1, 范數定義如下:

 

L1范數:

當p=1時,是L1范數,其表示某個向量中所有元素絕對值的和。

L2范數:

當p=2時,是L2范數, 表示某個向量中所有元素平方和再開根, 也就是歐幾里得距離公式。

 

在二維情況下,不同范數的圖形如下, q表示的是范數p的值

 

 那么在機器學習中他們是什么區別呢

 

 

藍色圈圈表示loss function求解的值,紅色圈表示范數的正則,圓是2范數,方形是1范數。可以看到,

由於1范數是菱形(頂點是凸出來的),其相切的點更可能在坐標軸上,而坐標軸上的點有一個特點,其只有一個坐標分量不為零,其他坐標分量為零,即是稀疏的。

由於2范數解范圍是圓,所以相切的點有很大可能不在坐標軸上, 比較容易是稠密值。

 

結論1范數在機器學習中可以稀疏解。 2范數在機器學習中可以導致稠密解。

    另外,2范數可以解決矩陣求逆病態問題,並且求解過程比梯度下降SGD要快

 

     2范數解決矩陣求逆病態問題: 矩陣求逆是一個 病態問題,即矩陣並不是在所有情況下都有逆矩陣。所以在實際使用時會遇到問題。
為了解決這個問題,可以求其近似解。 可以用SGD(梯度下降法)求一個近似解,或者 加入正則項(2范數)
加入正則項是我們這里要說的。加入2范數的正則項可以解決這個病態問題,並且也可以得到閉式解,在實際使用時要比用SGD快。
 
     2范數的正則項還有其他好處: 比如控制方差和偏差的關系,得到一個好的擬合。


 

2. 拉普拉斯分布

如果隨機變量的概率密度函數分布為:

 

 那么它就是拉普拉斯分布。其中,μ 是數學期望,b > 0 是振幅。如果 μ = 0,那么,正半部分恰好是尺度為 1/2 的指數分布。

 

 

 

3.高斯分布

又叫正態分布,若隨機變量X服從一個數學期望為μ、標准方差為σ2的高斯分布,記為:
X∼N(μ,σ2),

則其概率密度函數為:

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM