變分貝葉斯推斷（Variational Bayesian Inference）

本文轉載自查看原文 2020-04-01 11:16 328

~~變分貝葉斯推斷（Variational Bayesian Inference）

變分貝葉斯方法主要處理復雜的統計模型，貝葉斯推斷中參數可以分為可觀變量和不可觀變量，這其中不可觀部分進一步分為隱含參數和隱含變量。

變分貝葉斯的核心任務是尋找一個概率分布$Q\left( {x;\theta } \right)$ 去逼近真實的$P\left( x \right)$, 並使用KL散度去估計其具體逼近程度，因為與逼近程度負相關，所以可以姑且稱為不相似度。KL散度會在之后具體說明討論。更准確地說是在逼近后驗概率，即用 ${Q\left( {x\left| D \right.} \right)}$ 去盡量逼近 ${P\left( {x\left| D \right.} \right)}$。

變分法是以函數為變量求解最優問題的方法。

變分法的優點主要是：有解析解、計算開銷較小、易於在大規模問題中應用。

~~KL散度
根據定義，有
\[KL\left[ {Q\left( x \right)\left\| {P\left( {x\left| D \right.} \right)} \right.} \right] = \int {dx \cdot Q\left( x \right)} \ln \frac{{Q\left( x \right)}}{{P\left( {x\left| D \right.} \right)}}\]
其中$D$為所觀測的數據，而$x$是不能觀測的數據。

~~平均場假設
\[Q\left( x \right) = \prod\limits_i {{Q_i}\left( {{x_i}\left| {{\theta _i}} \right.} \right)}\]
顯然的，$x_i$各自獨立，與此同時$\theta_i$之間也沒有相互作用。這里假設的就是各觀測數據之間是不會互相干擾的。
與此同時，還需要這些各自獨立的分布也需要歸一化：
\[\int {d{x_i} \cdot {Q_i}\left( x \right)} = 1\].
顯而易見的是，這點是我們所用估計模型——概率分布$Q\left( {x;\theta } \right)$ 的特點，而不是原本分布的特點。
從邊緣概率角度而言，對於$P_i\left( x \right)$, $Q_i\left( x \right)$很可能是個很差的估計。

~~ELBO（證據下界Evidence Lower Bound）和KL散度的關系
由貝葉斯公式：

\[\ln P\left( D \right) = \ln P\left( {x,D} \right) - \ln Q\left( x \right) - \ln \frac{{P\left( {x\left| D \right.} \right)}}
{{Q\left( x \right)}}\]

對$Q\left( D \right)$做期望

\[\begin{gathered}
\int {dx \cdot Q\left( x \right)} \ln P\left( D \right) = \int {dx\cdot Q\left( x \right)} \ln P\left( {x,D} \right) - \int {dx \cdot Q\left( x \right)} \ln Q\left( x \right) \hfill \\
- \int {dx \cdot Q\left( x \right)} \ln \frac{{P\left( {x | D} \right)}}
{{Q\left( x \right)}} \hfill \\
\end{gathered} \]

其中$Q\left( x \right)$與$P\left( D \right)$相互獨立，$Q\left( D \right)$的選定顯然與系統本身之間的獨立，相關性是后期賦予的。

進而有

\[\begin{gathered}
\ln P\left( D \right) = \underbrace {\int {dx \cdot Q\left( x \right)} \ln P\left( {x,D} \right) - \int {dx \cdot Q\left( x \right)} \ln Q\left( x \right)}_{ELBO} \hfill \\
\underbrace { - \int {dx \cdot Q\left( x \right)} \ln \frac{{P\left( {x | D} \right)}}
{{Q\left( x \right)}}}_{KL\left( {Q\left\| P \right.} \right)} \hfill \\
\end{gathered} \]

顯然，$\ln P\left( D \right)$作為數據真值而確定，導致 ${KL\left( {Q\left\| P \right.} \right)}$與ELOB是此消彼長的。

當我們在制定確定的$Q\left( {x;\theta } \right)$時，應該考慮如何用盡可能簡單的$Q\left( {x;\theta } \right)$最大化ELBO

而最小化${KL\left( {Q\left\| P \right.} \right)}$, 從而使得$Q\left( {x;\theta } \right)$的逼近更准確。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 變分貝葉斯學習（variational bayesian learning）及重參數技巧（reparameterization trick）變分貝葉斯（Variational Bayes）變分推斷（Variational Inference）變分推斷(Variational Inference) 變分貝葉斯VBEM 由淺入深 [Bayesian] “我是bayesian我怕誰”系列 - Variational Inference 變分貝葉斯自編碼器（VAE) 匯總淺談貝葉斯推斷【Bayesian】貝葉斯決策方法（Bayesian Decision Method）貝葉斯網絡(Bayesian networks)