貝葉斯推斷之拉普拉斯近似

本文轉載自查看原文 2018-04-15 21:08 4729 機器學習/ 貝葉斯推斷/ 貝葉斯/ machine learning

貝葉斯推斷之拉普拉斯近似

本文介紹使用拉普拉斯近似方法來求解貝葉斯后驗概率分布。在上一篇文章：貝葉斯推斷之最大后驗概率(MAP)中介紹了使用點估計法來求解后驗概率分布，在文章中定義了后驗概率分布公式:

\[p(w|t,X)=\frac{p(t|X,w)p(w)}{p(t|X)} \]

分母\(p(t|X)\)是與參數 \(w\)無關，可視為常量。

定義函數\(g\)如下：

\[g(w;X,t,\sigma^2)=p(t|X,w)p(w|\sigma^2) \]

因此，\(g\)與\(p(w|t,X)\)之比為常數。上文介紹了點估計法求解\(p(w|t,X)\)。本文介紹拉普拉斯近似法求解\(p(w|t,X)\)。

什么是拉普拉斯近似？

由於沒法直接求解\(p(w|t,X)\)，轉而求解\(g(w;X,t,\sigma^2)\)，拉普拉斯近似就是首先假設函數\(log(g(w;X,t,\sigma^2))\)服從高斯分布，然后通過泰勒展開公式，將\(log(g(w;X,t,\sigma^2))\)在\(w^*\)處展開。 \(w^*\)就是上文使用牛頓法求得的最優參數。

高斯分布的數學表達式如下：

\[\frac{1}{\sqrt{2\pi}}exp(-\frac{(w-u)^2}{2\sigma^2}) \]

若知道了均值\(u\)和方差\(\sigma^2\)，也就求得了\(g\)的高斯分布形式。

泰勒展開

根據上文介紹在\(w^*\)處，\(log(g(w;X,t,\sigma^2))\)的一階導數等於0，二階導數小於0（對於多元函數，則是黑賽矩陣負定）。因此，對它進行二階泰勒展開如下：

由於一階導數為0，化簡為：

公式(1)

其中，\(v\)如下：

對高斯分布的數學表達式取對數：

\[logK-\frac{(w-u)^2}{2\sigma^2} (公式2) \]

其中，\(K=\frac{1}{\sqrt{2\pi}}\)是一個常數。對比公式1 \(log(g(w;X,t,\sigma^2))\) 和公式2，求得高斯分布參數：

\(u=w^*\)

\(\sigma^2=\frac{1}{v}\)

至此，我們就求解出了函數\(log(g(w;X,t,\sigma^2))\)的高斯分布，而\(g\)與\(p(w|t,X)\)之比為常數，也就求得了后驗概率\(p(w|t,X)\)的分布了。

使用后驗概率分布的期望值進行預測

對於一個新樣本\(x_{new}\)，將它歸為負類的概率為：\(P(T_{new}=1|x_{new},X,t,\sigma^2)\)

而這個概率就是計算： \(p(w|t,X)\)所服從的分布的期望。為什么是計算期望呢？因為參數\(w\)不是單個具體的值了，而是一個隨機變量了，\(w\)的函數服從高斯分布。而期望的數學意義是“平均”，因此將期望值作為“歸類為負類的概率”更准確（capture more uncertainty）
通過前面的拉普拉斯近似，我們知道它服從正態分布：