變分推斷的公式推導和ELBO的理解


本文從最小化KL散度出發,得出變分推斷中的優化目標函數ELBO(Evidence Lower Bound Objective),並討論對ELBO 的理解。
變分推斷的推導
假設我們有觀測數據 (observations) \(D\),關於參數 (parameter) \(\theta\) 的先驗分布(prior distribution) 為\(p(\theta)\), 根據貝葉斯定理,關於 \(\theta\) 的后驗分布 (posterior) 為:
\begin{equation}\label{Bayes}
p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)}
\end{equation}

\(p(D|\theta)\) 是似然概率 (likelihood), \(p(D)\) 是normalizing constant (evidence):
\begin{equation}
p(D) = \int\limits_{\Theta}p(D|\theta)p(\theta)d\theta
\end{equation}
后驗分布 \(p(\theta|D)\) 通常不容易得到. 變分法 (Variance inference method) 用另一個可控分布 \(q(\theta;\xi)\) 來趨近真實的未知后驗分布 ( true posterior) \(p(\theta|D)\), 其中 \(\xi\) 是控制分布 \(q(\theta;\xi)\) 的隱變量.

我們用KL 散度(KL Divergence) 來衡量后驗分布(posterior) 和分布\(q(\theta;\xi)\) 的差距:
\begin{equation}
KL[q(\theta|\xi) || p(\theta|D)] = \int\limits q(\theta;\xi)\log\frac{q(\theta;\xi)}{p(\theta|D)}d\theta \label{KL_definition}
\end{equation}

我們的目標是找到最佳的隱變量 \(\xi\) 使得 KL Divergence 最小:
\begin{equation}
\xi^* =\mathop{\arg\min}\limits_{\xi} KL[q(\theta;\xi) || p(\theta|D)]= \mathop{\arg\min}\limits_{\phi} \int\limits q(\theta;\xi)\log\frac{q(\theta;\xi)}{p(\theta|D)}d\theta
\end{equation}
然而上式包含后驗分布\(p(\theta|D)\), 直接優化通常不可行.

我們在Eq. \ref{KL_definition} 中帶入貝葉斯定理, 將posteiror \(p(\theta|D)\) 表示為Eq. \ref{Bayes} 的形式:
\begin{equation}
KL[q(\theta|\xi) || p(\theta|D)] = \int\limits q(\theta;\xi)\log\frac{q(\theta;\xi)p(D)}{p(D|\theta)p(\theta)}d\theta
\end{equation}
將等式的右邊拆分:
\begin{equation}
KL[q(\theta;\xi) || p(\theta|D)] = \int\limits q(\theta;\xi)\log q(\theta;\xi)d\theta - q(\theta;\xi) \log [p(D|\theta)p(\theta)]d\theta + \int \limits q(\theta;\xi)\log p(D)d\theta \label{KL}
\end{equation}

Eq. \ref{KL} 的最后一項中\(\log p(D)\) 是與隱變量\(\phi\) 無關的,所以:
\begin{equation}
\int \limits q(\theta;\xi)\log p(D)d\theta = \log p(D)
\end{equation}
因此,
\begin{equation}
\mathop{\arg\min}\limits_{\phi}KL[q(\theta;\xi) || p(\theta|D)] = \mathop{\arg\min}\limits_{\phi} \left[\int\limits q(\theta;\xi)\log q(\theta;\xi)d\theta - \int\limits q(\theta;\xi) \log [p(D|\theta)p(\theta)]d\theta\right]
\end{equation}
上式右端為ELBO (Evidence Lower Bound Objective) 取反的結果,我們遵循ELBO 的定義,將上式右端取反寫為:
\begin{equation}
\mathop{\arg\min}\limits_{\xi}KL[q(\theta;\xi) || p(\theta|D)] = \mathop{\arg\max}\limits_{\phi} \left[\int\limits q(\theta;\xi) \log [p(D|\theta)p(\theta)]d\theta - \int\limits q(\theta;\xi)\log q(\theta;\xi)d\theta \right]= \mathop{\arg \max}\limits_{\xi} ELBO
\end{equation}

對ELBO (Evidence Lower Bound Objective) 的理解

從Eq. \ref{KL}, 我們看到:
\begin{equation}
ELBO = \log p(D) - KL[q(\theta;\xi) || p(\theta|D)]
\end{equation}
也就是說, 在最理想情況下(也就是我們的替代分布\(q(\theta;\xi)\) 剛好為后驗分布\(p(\theta|D)\), 此時 \(KL[q(\theta;\xi) || p(\theta|D)]=0\)), ELBO 等於 evidence \(\log p(D)\)。 實際上由於\(q(\theta;\xi)\) 幾乎不可能和后驗分布\(p(\theta|D)]\)完全重合, 因此\(KL[q(\theta;\xi) || p(\theta|D)]\geq 0\), ELBO 描述的是在當前\(q(\theta;\xi)\) 和已知觀測數據\(D\)下的Evidence \(p(D)\) 的 “lower bound”.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM