~~變分貝葉斯推斷(Variational Bayesian Inference)
變分貝葉斯方法主要處理復雜的統計模型,貝葉斯推斷中參數可以分為 可觀變量 和 不可觀變量,這其中不可觀部分進一步分為 隱含參數 和 隱含變量。
變分貝葉斯的核心任務是尋找一個 概率分布$Q\left( {x;\theta } \right)$ 去逼近真實的$P\left( x \right)$, 並使用KL散度去估計其具體逼近程度,因為與逼近程度負相關,所以可以姑且稱為 不相似度。KL散度會在之后具體說明討論。更准確地說是在逼近后驗概率,即用 ${Q\left( {x\left| D \right.} \right)}$ 去盡量逼近 ${P\left( {x\left| D \right.} \right)}$。
變分法是以函數為變量求解最優問題的方法。
變分法的優點主要是:有解析解、計算開銷較小、易於在大規模問題中應用。
~~KL散度
根據定義,有
\[KL\left[ {Q\left( x \right)\left\| {P\left( {x\left| D \right.} \right)} \right.} \right] = \int {dx \cdot Q\left( x \right)} \ln \frac{{Q\left( x \right)}}{{P\left( {x\left| D \right.} \right)}}\]
其中$D$為所觀測的數據,而$x$是不能觀測的數據。
~~平均場假設
\[Q\left( x \right) = \prod\limits_i {{Q_i}\left( {{x_i}\left| {{\theta _i}} \right.} \right)}\]
顯然的,$x_i$各自獨立,與此同時$\theta_i$之間也沒有相互作用。這里假設的就是各觀測數據之間是不會互相干擾的。
與此同時,還需要這些各自獨立的分布也需要歸一化:
\[\int {d{x_i} \cdot {Q_i}\left( x \right)} = 1\].
顯而易見的是,這點是我們所用估計模型——概率分布$Q\left( {x;\theta } \right)$ 的特點, 而不是原本分布的特點。
從邊緣概率角度而言,對於$P_i\left( x \right)$, $Q_i\left( x \right)$很可能是個很差的估計。
~~ELBO(證據下界Evidence Lower Bound)和KL散度的關系
由貝葉斯公式:
\[\ln P\left( D \right) = \ln P\left( {x,D} \right) - \ln Q\left( x \right) - \ln \frac{{P\left( {x\left| D \right.} \right)}}
{{Q\left( x \right)}}\]
對$Q\left( D \right)$做期望
\[\begin{gathered}
\int {dx \cdot Q\left( x \right)} \ln P\left( D \right) = \int {dx\cdot Q\left( x \right)} \ln P\left( {x,D} \right) - \int {dx \cdot Q\left( x \right)} \ln Q\left( x \right) \hfill \\
- \int {dx \cdot Q\left( x \right)} \ln \frac{{P\left( {x | D} \right)}}
{{Q\left( x \right)}} \hfill \\
\end{gathered} \]
其中$Q\left( x \right)$與$P\left( D \right)$相互獨立,$Q\left( D \right)$的選定顯然與系統本身之間的獨立,相關性是后期賦予的。
進而有
\[\begin{gathered}
\ln P\left( D \right) = \underbrace {\int {dx \cdot Q\left( x \right)} \ln P\left( {x,D} \right) - \int {dx \cdot Q\left( x \right)} \ln Q\left( x \right)}_{ELBO} \hfill \\
\underbrace { - \int {dx \cdot Q\left( x \right)} \ln \frac{{P\left( {x | D} \right)}}
{{Q\left( x \right)}}}_{KL\left( {Q\left\| P \right.} \right)} \hfill \\
\end{gathered} \]
顯然,$\ln P\left( D \right)$作為數據真值而確定,導致 ${KL\left( {Q\left\| P \right.} \right)}$與ELOB是此消彼長的。
當我們在制定確定的$Q\left( {x;\theta } \right)$時,應該考慮如何用盡可能簡單的$Q\left( {x;\theta } \right)$最大化ELBO
而最小化${KL\left( {Q\left\| P \right.} \right)}$, 從而使得$Q\left( {x;\theta } \right)$的逼近更准確。