變分推斷到變分自編碼器(VAE)

本文轉載自查看原文 2019-11-16 05:37 266

EM算法

EM算法是含隱變量圖模型的常用參數估計方法，通過迭代的方法來最大化邊際似然。

帶隱變量的貝葉斯網絡

給定N 個訓練樣本D={x⁽ⁿ⁾}，其對數似然函數為：

通過最大化整個訓練集的對數邊際似然L(D; θ)，可以估計出最優的參數θ^∗。然而計算邊際似然函數時涉及p(x) 的推斷問題，需要在對數函數的內部進行求和（或積分）

注意到，對數邊際似然log p(x; θ) 可以分解為

其中D_KL(q(z)∥p(z|x; θ))為分布q(z)和后驗分布p(z|x; θ)的KL散度.

由於D_KL(q(z)∥p(z|x; θ)) ≥ 0，並當且僅當q(z) = p(z|x; θ) 為0，因此 ELBO(q, x; θ) 為log p(x; θ) 的一個下界

EM算法具體分為兩個步驟：E步和M步。這兩步不斷重復，直到收斂到某個局部最優解。在第t 步更新時，E步和M步分別為

E步（Expectation Step）：固定參數θ_t，找到一個分布使得ELBO(q, x; θ_t)最大，即等於log p(x; θ_t)

- 所以我們希望q(z) = p(z|x, θ_t) ，這樣ELBO(q, x; θ_t)最大。而計算后驗分布p(z|x; θ)是一個推斷（Inference）問題。如果z是有限的一維離散變量。（比如混合高斯模型），計算起來還比較容易。否則，p(z|x; θ) 一般情況下很難計算，需要通過變分推斷的方法來進行近似估計
M步（Maximization Step）：固定q_t+1(z)，找到一組參數使得證據下界最大，即

EM算法在第t 步迭代時的示例

變分自編碼

變分自編碼器

生成模型的聯合概率密度函數

給定一個樣本x，其對數邊際似然log p(x; θ) 可以分解為

其中q(z; ϕ)是額外引入的變分密度函數, 其參數為ϕ，ELBO(q, x; θ, ϕ)為證據下界，

最大化對數邊際似然log p(x; θ) 可以用EM算法來求解，具體可以分為兩步：

　　E步：尋找一個密度函數q(z; ϕ) 使其等於或接近於后驗密度函數p(z|x; θ)；
　　M步：保持q(z; ϕ) 固定，尋找θ 來最大化ELBO(q, x; θ, ϕ)。

PS: 當p(z|x; θ)比較復雜時，很難用簡單的變分分布q(z; ϕ)去近似，此時，q(z; ϕ)也相對比較復雜，除此之外，概率密度函數p(x|z; θ)一般也比較復雜。那怎么辦呢？很簡單，我們可以用神經網絡來近似這兩個復雜的概率必讀函數。這就是變分自編碼器（Variational AutoEncoder，VAE）的精髓。

推斷網絡：用神經網絡來估計變分分布q(z; ϕ)，理論上q(z; ϕ) 可以不依賴x。但由於q(z; ϕ) 的目標是近似后驗分布p(z|x; θ)，其和x相關，因此變分密度函數一般寫為q(z|x; ϕ)。推斷網絡的輸入為x，輸出為變分分布q(z|x; ϕ)。
生成網絡：用神經來估計概率分布p(x|z; θ)，生成網絡的輸入為z，輸出為概率分布p(x|z; θ)。