正則化是為了防止過擬合。
1. 范數
范數是衡量某個向量空間(或矩陣)中的每個向量以長度或大小。
范數的一般化定義:對實數p>=1, 范數定義如下:

L1范數:
當p=1時,是L1范數,其表示某個向量中所有元素絕對值的和。
L2范數:
當p=2時,是L2范數, 表示某個向量中所有元素平方和再開根, 也就是歐幾里得距離公式。
在二維情況下,不同范數的圖形如下, q表示的是范數p的值:
那么在機器學習中他們是什么區別呢?
藍色圈圈表示loss function求解的值,紅色圈表示范數的正則,圓是2范數,方形是1范數。可以看到,
由於1范數是菱形(頂點是凸出來的),其相切的點更可能在坐標軸上,而坐標軸上的點有一個特點,其只有一個坐標分量不為零,其他坐標分量為零,即是稀疏的。
由於2范數解范圍是圓,所以相切的點有很大可能不在坐標軸上, 比較容易是稠密值。
結論:1范數在機器學習中可以稀疏解。 2范數在機器學習中可以導致稠密解。
另外,2范數可以解決矩陣求逆病態問題,並且求解過程比梯度下降SGD要快。
2范數解決矩陣求逆病態問題: 矩陣求逆是一個
病態問題,即矩陣並不是在所有情況下都有逆矩陣。所以在實際使用時會遇到問題。
為了解決這個問題,可以求其近似解。
可以用SGD(梯度下降法)求一個近似解,或者
加入正則項(2范數)。
加入正則項是我們這里要說的。加入2范數的正則項可以解決這個病態問題,並且也可以得到閉式解,在實際使用時要比用SGD快。
2范數的正則項還有其他好處: 比如控制方差和偏差的關系,得到一個好的擬合。
2. 拉普拉斯分布
如果隨機變量的概率密度函數分布為:
那么它就是拉普拉斯分布。其中,μ 是數學期望,b > 0 是振幅。如果 μ = 0,那么,正半部分恰好是尺度為 1/2 的指數分布。
3.高斯分布
又叫正態分布,若隨機變量X服從一個數學期望為μ、標准方差為σ2的高斯分布,記為:
X∼N(μ,σ2),
則其概率密度函數為: