變分貝葉斯推斷(Variational Bayesian Inference)


~~變分貝葉斯推斷(Variational Bayesian Inference)

變分貝葉斯方法主要處理復雜的統計模型,貝葉斯推斷中參數可以分為 可觀變量 和 不可觀變量,這其中不可觀部分進一步分為 隱含參數 和 隱含變量。

變分貝葉斯的核心任務是尋找一個 概率分布$Q\left( {x;\theta } \right)$ 去逼近真實的$P\left( x \right)$, 並使用KL散度去估計其具體逼近程度,因為與逼近程度負相關,所以可以姑且稱為 不相似度。KL散度會在之后具體說明討論。更准確地說是在逼近后驗概率,即用  ${Q\left( {x\left| D \right.} \right)}$ 去盡量逼近 ${P\left( {x\left| D \right.} \right)}$。

變分法是以函數為變量求解最優問題的方法。

變分法的優點主要是:有解析解、計算開銷較小、易於在大規模問題中應用。

~~KL散度
根據定義,有
\[KL\left[ {Q\left( x \right)\left\| {P\left( {x\left| D \right.} \right)} \right.} \right] = \int {dx \cdot Q\left( x \right)} \ln \frac{{Q\left( x \right)}}{{P\left( {x\left| D \right.} \right)}}\]
其中$D$為所觀測的數據,而$x$是不能觀測的數據。

~~平均場假設
\[Q\left( x \right) = \prod\limits_i {{Q_i}\left( {{x_i}\left| {{\theta _i}} \right.} \right)}\]
顯然的,$x_i$各自獨立,與此同時$\theta_i$之間也沒有相互作用。這里假設的就是各觀測數據之間是不會互相干擾的。
與此同時,還需要這些各自獨立的分布也需要歸一化:
\[\int {d{x_i} \cdot {Q_i}\left( x \right)} = 1\].
顯而易見的是,這點是我們所用估計模型——概率分布$Q\left( {x;\theta } \right)$ 的特點, 而不是原本分布的特點。
從邊緣概率角度而言,對於$P_i\left( x \right)$, $Q_i\left( x \right)$很可能是個很差的估計。

~~ELBO(證據下界Evidence Lower Bound)和KL散度的關系
由貝葉斯公式:

\[\ln P\left( D \right) = \ln P\left( {x,D} \right) - \ln Q\left( x \right) - \ln \frac{{P\left( {x\left| D \right.} \right)}}
{{Q\left( x \right)}}\]

對$Q\left( D \right)$做期望

\[\begin{gathered}
\int {dx \cdot Q\left( x \right)} \ln P\left( D \right) = \int {dx\cdot Q\left( x \right)} \ln P\left( {x,D} \right) - \int {dx \cdot Q\left( x \right)} \ln Q\left( x \right) \hfill \\
- \int {dx \cdot Q\left( x \right)} \ln \frac{{P\left( {x | D} \right)}}
{{Q\left( x \right)}} \hfill \\ 
\end{gathered} \]

其中$Q\left( x \right)$與$P\left( D \right)$相互獨立,$Q\left( D \right)$的選定顯然與系統本身之間的獨立,相關性是后期賦予的。

進而有

\[\begin{gathered}
\ln P\left( D \right) = \underbrace {\int {dx \cdot Q\left( x \right)} \ln P\left( {x,D} \right) - \int {dx \cdot Q\left( x \right)} \ln Q\left( x \right)}_{ELBO} \hfill \\
\underbrace { - \int {dx \cdot Q\left( x \right)} \ln \frac{{P\left( {x | D} \right)}}
{{Q\left( x \right)}}}_{KL\left( {Q\left\| P \right.} \right)} \hfill \\ 
\end{gathered} \]

顯然,$\ln P\left( D \right)$作為數據真值而確定,導致  ${KL\left( {Q\left\| P \right.} \right)}$與ELOB是此消彼長的。

當我們在制定確定的$Q\left( {x;\theta } \right)$時,應該考慮如何用盡可能簡單的$Q\left( {x;\theta } \right)$最大化ELBO

而最小化${KL\left( {Q\left\| P \right.} \right)}$, 從而使得$Q\left( {x;\theta } \right)$的逼近更准確。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM