Laplace(拉普拉斯)先驗與L1正則化
在之前的一篇博客中L1正則化及其推導推導證明了L1正則化是如何使參數稀疏化人,並且提到過L1正則化如果從貝葉斯的觀點看來是Laplace先驗,事實上如果從貝葉斯的觀點,所有的正則化都是來自於對參數分布的先驗。現在來看一下為什么Laplace先驗會導出L1正則化,也順便證明Gauss(高斯)先驗會導出L2正則化。
最大似然估計
很多人對最大似然估計不明白,用最簡單的線性回歸的例子來說:如果有數據集\((X, Y)\),並且\(Y\)是有白噪聲(就是與測量得到的\(Y\)與真實的\(Y_{real}\)有均值為零的高斯分布誤差),目的是用新產生的\(X\)來得到\(Y\)。如果用線性模型來測量,那么有:
其中\(X=(x_1, x_2...x_n)\),\(\epsilon\)是白噪聲,即\(\epsilon \sim N(0, \delta^2)\)。那么於一對數據集\((X_i, Y_i)\)來用,在這個模型中用\(X_i\)得到\(Y_i\)的概率是\(Y_i \sim N(f(X_i), \delta^2)\):
假設數據集中每一對數據都是獨立的,那么對於數據集來說由\(X\)得到\(Y\)的概率是:
根據決策論,就可以知道可以使概率\(P(Y|X,\theta)\)最大的參數\(\theta^*\)就是最好的參數。那么我們可以直接得到最大似然估計的最直觀理解:對於一個模型,調整參數\(\theta\),使得用X得到Y的概率最大。那么參數\(\theta\)就可以由下式得到:
這個就是最小二乘計算公式。
Laplace分布
Laplace概率密度函數分布為:
分布的圖像如下所示:

可以看到Laplace分布集中在\(\mu\)附近,而且\(b\)越小,數據的分布就越集中。
Laplace先驗導出L1正則化
先驗的意思是對一種未知的東西的假設,比如說我們看到一個正方體的骰子,那么我們會假設他的各個面朝上的概率都是\(1/6\),這個就是先驗。但事實上骰子的材質可能是密度不均的,所以還要從數據集中學習到更接近現實情況的概率。同樣,在機器學習中,我們會根據一些已知的知識對參數的分布進行一定的假設,這個就是先驗。有先驗的好處就是可以在較小的數據集中有良好的泛化性能,當然這是在先驗分布是接近真實分布的情況下得到的了,從信息論的角度看,向系統加入了正確先驗這個信息,肯定會提高系統的性能。我們假設參數\(\theta\)是如下的Laplace分布的,這就是Laplace先驗:
其中\(\lambda\)是控制參數\(\theta\)集中情況的超參數,\(\lambda\)越大那么參數的分布就越集中在0附近。
在前面所說的最大似然估計事實上是假設了\(\theta\)是均勻分布的,也就是\(P(\theta)=Constant\),我們最大化的要后驗估計,即是:
如果是Laplace先驗,將式\((3.1)\)代入到式\((3.2)\)中可得:
這就是由Laplace導出L1正則化,我在之前的一篇博客中L1正則化及其推導分析過\(\lambda\)越大,那么參數的分布就越集中在0附近,這個與Laplace先驗的分析是一致的。
Gauss先驗導出L2正則化
到這里,我們可以很輕易地導出L2正則化,假設參數\(\theta\)的分布是符合以下的高斯分布:
代入式\((3.2)\)可以直接得到L2正則化:
【防止爬蟲轉載而導致的格式問題——鏈接】:
http://www.cnblogs.com/heguanyou/p/7688344.html
