【Learning Notes】變分自編碼器（Variational Auto-Encoder，VAE）

本文轉載自查看原文 2017-09-27 22:44 3664 deep learning/ 機器學習/ 深度學習/ VAE

轉載自http://blog.csdn.net/jackytintin/article/details/53641885

近年，隨着有監督學習的低枝果實被采摘的所剩無幾，無監督學習成為了研究熱點。VAE（Variational Auto-Encoder，變分自編碼器）[1,2] 和 GAN（Generative Adversarial Networks）等模型，受到越來越多的關注。

筆者最近也在學習 VAE 的知識（從深度學習角度）。首先，作為工程師，我想要正確的實現 VAE 算法，以及了解 VAE 能夠幫助我們解決什么實際問題；作為人工智能從業者，我同時希望在一定程度上了解背后的原理。

作為學習筆記，本文按照由簡到繁的順序，首先介紹 VAE 的具體算法實現；然后，再從直觀上解釋 VAE 的原理；最后，對 VAE 的數學原理進行回顧。我們會在適當的地方，對變分、自編碼、無監督、生成模型等概念進行介紹。

我們會看到，同許多機器算法一樣，VAE 背后的數學比較復雜，然而，工程實現上卻非常簡單。

這篇 Conditional Variational Autoencoders 也是 by intuition 地介紹 VAE，幾張圖也非常用助於理解。

1. 算法實現

這里介紹 VAE 的一個比較簡單的實現，盡量與文章[1] Section 3 的實驗設置保持一致。完整代碼可以參見 repo。

1.1 輸入：

數據集

做為例子，可以設想

圖1. MNIST demo （圖片來源）

1.2 輸出：

一個輸入為

decoder
圖 2. decoder

在輸入輸出維度滿足要求的前提下，decoder 以為任何結構——MLP、CNN，RNN 或其他。

由於我們已經將輸入數據規一化到 [0, 1] 區間，因此，我們令 decoder 的輸出也在這個范圍內。這可以通過在 decoder 的最后一層加上 sigmoid 激活實現 :
$f (x) = 1 1 + e - x$

作為例子，我們取 m = 100，decoder 的為最普遍的全連接網絡（MLP）。基於 Keras Functional API 的定義如下：

n, m = 784, 2 hidden_dim = 256 batch_size = 100 ## Encoder z = Input(batch_shape=(batch_size, m)) h_decoded = Dense(hidden_dim, activation='tanh')(z) x_hat = Dense(n, activation='sigmoid')(h_decoded)

1.3 訓練

VAE overview
圖 3. VAE 結構框架

1.3.1 encoder

為了訓練 decoder，我們需要一個輔助的 encoder 網絡（又稱 recognition model）（如圖3）。encoder 的輸入為

encoder
圖 4. encoder

1.3.2 采樣（sampling）

我們將 encoder 的輸出（

接着上面的例子，encoder 的定義如下：

## Encoder x = Input(batch_shape=(batch_size, n)) h_encoded = Dense(hidden_dim, activation='tanh')(x) z_mean = Dense(m)(h_encoded) # 均值 z_log_var = Dense(m)(h_encoded) # 方差對數

然后，根據 encoder 輸出的均值與方差，生成服從相應高斯分布的隨機數：

epsilon = K.random_normal(shape=(batch_size, m), 
                          mean=0.,std=epsilon_std) # 標准高斯分布 z = z_mean + exp(z_log_var / 2) * epsilon

sampler
圖5. 采樣

這里運用了 reparemerization 的技巧。由於

圖6. Reparameterization （圖片來源）

preparameterization 的代價是隱變量必須連續變量[7]。

1.3.3 優化目標

encoder 和 decoder 組合在一起，我們能夠對每個

注：嚴格而言，按照模型的假設，我們要優化的並不是

由於

x e n t = \sum i = 1 n - [x i \cdot log (x^i) + (1 - x i) \cdot log (1 -

xent 越小，

我們也可以用均方誤差來度量：

m s e = \sum i = 1 n (x i - x^i) 2

mse 越小，兩者越接近。

訓練過程中，輸出即是輸入，這便是 VAE 中 AE（autoencoder，自編碼）的含義。

另外，我們需要對 encoder 的輸出 z_mean（

K L = - 0.5 * (1 + log σ 2 - μ 2 - σ 2) = - 0.5 (1 + log σ 2 - μ 2 - e x p (log σ

這里的KL，其實是 KL 散度的負值，見下文。

總的優化目標（最小化）為：

l o s s = x e n t + K L

或

l o s s = m s e + K L

綜上所述，有了目標函數，並且從輸入到輸出的所有運算都可導，我們就可以通過 SGD 或其改進方法來訓練這個網絡了。

由於訓練過程只用到

1.4 小結

總結一下，如圖2，VAE 包括 encoder （模塊 1）和 decoder（模塊 4）兩個神經網絡。兩者通過模塊 2、3 連接成一個大網絡。得益於 reparemeterization 技巧，我們可以使用常規的 SGD 來訓練網絡。

學習算法的最好方式還是讀代碼，網上有許多基於不同框架的 VAE 參考實現，如 tensorflow、theano、keras、torch。

2. 直觀解釋

2.1 VAE 有什么用？

2.1.1 數據生成

由於我們指定

圖8（交叉熵）和圖9（均方誤差）是基於訓練出來的 decoder，采樣生成的圖像（

x_xent
圖8. 交叉熵損失

x_mse
圖9. 均方誤差損失

嚴格來說，生成上圖兩幅圖的代碼並不是采樣，而是

2.1.2 高維數據可視化

encoder 可以將數據

z_xent
圖10. 交叉熵損失

z_mse
圖11. 均方誤差損失

2.1.3 缺失數據填補（imputation）

對許多現實問題，樣本點的各維數據存在相關性。因此，在部分維度缺失或不准確的情況，有可能通過相關信息得到填補。圖12、13展示一個簡單的數據填補的實例。其中，第一行為原圖，第二行為中間某幾行像素的缺失圖，第三行為利用 VAE 模型恢復的圖。

i_xent
圖12. 交叉熵損失

i_mse
圖13. 均方誤差損失

2.1.4 半監督學習

相比於高成本的有標注的數據，無標注數據更容易獲取。半監督學習試圖只用一小部分有標注的數據加上大量無標注數據，來學習到一個較好預測模型（分類或回歸）。
VAE 是無監督的，而且也可以學習到較好的特征表征，因此，可以被用來作無監督學習[3, 12]。

2.2 VAE 原理

由於對概率圖模型和統計學等背景知識不甚了了，初讀[1, 2]，對問題陳述、相關工作和動機完全沒有頭緒。因此，先放下公式，回到 comfort zone，類比熟悉的模型，在直覺上理解 VAE 的工作原理。

2.2.1 模型結構

從模型結構（以及名字）上看，VAE 和自編碼器（audoencoder）非常的像。特別的，VAE 和 CAE（constractive AE）非常相似，兩者都對隱層輸出增加長約束。而 VAE 在隱層的采樣過程，起到和 dropout 類似的正則化偷用。因此，VAE 應該和 CAE 有類似的訓練和工作方式，並且不太易容過擬合。

2.2.2 流形學習

數據雖然高維，但相似數據可能分布在高維空間的某個流形上（例如圖14）。而特征學習就要顯式或隱式地學習到這種流形。

manifold
圖14. 流形學習（圖片來源）

正是這種流形分布，我們才能從低的隱變量恢復出高維的觀測變量。如圖8、圖9，相似的隱變量對應的觀測變量確實比較像，並且這樣相似性是平滑的變化。

3. 推導

VAE 提出背景涉及概率領域的最大似然估計（最大后驗概率估計）、期望最大化（EM）算法、變分推理（variational inference，VI）、KL 散度，MCMC 等知識。但 VAE 算法本身的數學推導不復雜，如果熟悉各個內容的話，可以直接跳到 3.6。

3.1 問題陳述

已知變量

DAG
圖15 兩層的有向概率圖，x為觀測變量，z為隱變量

對於這個概率圖，

p (z, x) = p (x | z) p (z)

p (x) = \int z p (x, z) d z = \int z p (x | z) \cdot p (z) d z = E z [p (x | z

我們只能觀測到

對於一個機器學習模型，如果它能夠（顯式或隱式的）建模

最簡單的生成模型可能是朴素貝葉斯模型。

3.2 最大似然估計（Maximum Likelihood Estimation，MLE）

概率分布的參數最經典的方法是最大似然估計。

給定一組觀測值

X = (x i), i = 1, . ., n

。觀測數據的似然為：

L (p θ (X)) = \prod i n p θ (x i)

一般取似然的對數：

log L (p θ (X)) = \sum i n log p θ (x i)

MLE 假設最大化似然的參數

從貝葉斯推理的觀點，

p (θ | X) = p ( θ ) \cdot ( X | θ ) p ( X ) = p ( θ ) \cdot ( X | θ )

log p (θ | X) = log p (θ) + log L (p (X | θ))

這是最大后驗概率估計（MAP）。

3.3 期望最大化算法（Expectation-Maximum，EM）

對於我們問題，利用 MLE 准則，優化目標為：

log p (X, Z)

由於

log p (X) = log \int z p (X, z) d z

通過 MLE 或 MAP 現在我們已經有了要目標（對數似然），但在我們問題下，似然中存在對隱變量

隨機初始化
$θ n e w = a r g m a x θ Q (θ, θ o l d)$
其中，
$Q (θ, θ o l d) = \int z p θ o l d (z | x) log (p θ (x, z)) d$

EM 比較直觀的應用是解決高斯混合模型（Gaussian Mixtrue Model，GMM）的參數估計及K-Means 聚類。更復雜的，語音識別的核心——GMM-HMM 模型的訓練也是利用 EM 算法[5]。

這里我們直接給出 ME 算法而省略了最重要的證明，但 EM 是變分推理的基礎，如果不熟悉建議先參見 [4] Chapter 9 或 [9]。

3. 4 MCMC

EM 算法中涉及到對

因此，可以采用數值積分的方式近似求得 M-step 的積分項。

Q (θ, θ o l d) = \int z p θ o l d (z | x) log (p θ (x, z)) d

這涉及到按照

3.5 變分推理（Variational Inference，VI）

由於 MCMC 算法的復雜性（對每個數據點都要進行大量采），在大數據下情況，可能很難得到應用。因此，對於

p (z | x)

變分推理的思想是，尋找一個容易處理的分布

分布之間的度量采用 Kullback–Leibler divergence（KL 散度），其定義如下：

在不致引起歧義的情況下，我們省略

注：KL散度不是距離度量，不滿足對稱性和三角不等式

因此，我們尋找

q * (z) = a r g m a x q (z) \in Q K L (q (z) | | p (z | x))

ELBO（Evidence Lower Bound Objective）

根據 KL 的定義及

K L (q (z) | | p (z | x)) = E [log q (z)] - E [log p (z, x)] + log

令

E L B O (q) = E [log p (z, x)] - E [log q (z)]

log p (x) = K L (q (x) | | p (z | x)) + E L B O (q) \geq E L B O (q)

ELBO 是

對於給定的數據集，

K L (q (x) | | p (z | x)) = log p (x) - E L B O (q)

關於變分推理這里就簡單介紹這么多。有興趣的話可以參考 [6]、[4] Chapter 10 以及最新的 tutorial [10]。

3.6 VAE

這里主要是按照 [1] 的思路來討論 VAE。

觀測數據

log p θ (x (i) = K L (q Φ (z | x (i)) | | p θ (z |

這里我們將

VI 中我們通過優化 L 來優化 KL。

根據概率的乘法公式，經過簡單的變換，L 可以寫作

L (θ, Φ; x (i))) = - K L (q Φ (z | x (i)) | | p θ (z

因此，我們優化的目標可以分解成等號右邊的兩項。

3.6.1 第一項

我們先考察第一項，這是一個 KL 散度。

如果，

- K L (q Φ (z | x (i)) | | p θ (z)) = - 0.5 * (1 + log σ 2 i -

這就是本文第1部分目標函數的 KL 項了。

具體證明見 [1] 附錄B。

3.6.2 第二項

然后，我們考察等式右邊第二項。

由於 VAE 並不對

E q Φ (z | x) [log p θ (x (i) | z)] \approx 1 L \sum j = 1 L

如果每次只采一個樣本點，則

E q Φ (z | x) [log p θ (x (i) | z)] \approx log p θ (x (i

其中，

3.6.3 損失函數

通過上面討論，VAE 的優化目標都成為了我們熟悉並容易處理的形式。下面，我們針對

第1部分介紹了交叉熵和均方誤差兩種損失函數。下面簡單介紹下，兩種損失對應的不同概率分布假設。以下分布均假設

交叉熵

如果假設

p (x = 1 | z) = α z, p (x = 0) = 1 - α z

L = α x z \cdot (1 - α z) 1 - x

decoder 輸出為伯努力分布的參數，即

log L = x \cdot l o g (x^) + (1 - x) log (1 - x^)

均方誤差