1. 前言

深度學習的威力在於其能夠逐層地學習原始數據的多種表達方式。每一層都以前一層的表達特征為基礎，抽取出更加抽象，更加適合復雜的特征，然后做一些分類等任務。

堆疊自編碼器（Stacked Autoencoder，SAE）實際上就是做這樣的事情，如前面的自編碼器，稀疏自編碼器和降噪自編碼器都是單個自編碼器，它們通過虛構一個$x->h->x$的三層網絡，能過學習出一種特征變化$h = f(wx+b)$。實際上，當訓練結束后，輸出層已經沒有什么意義了，我們一般將其去掉，即將自編碼器表示為：

2. SAE原理

之前之所以將自編碼器模型表示為3層的神經網絡，那是因為訓練的需要，我們將原始數據作為假想的目標輸出，以此構建監督誤差來訓練整個網絡。等訓練結束后，輸出層就可以去掉了，因為我們只關心的是從$x$到$h$的變換。

接下來的思路就很自然了，我們已經得到特征表達$h$，那么我們可不可以將$h$再作為原始信息，訓練一個新的自編碼器，得到新的特征表達呢？當軟可以，而且這就是所謂的堆疊自編碼器（Stacked Autoencoder，SAE）。Stacked就是逐層堆疊的意思，這個跟“棧”有點像。當把多個自編碼器Stack起來之后，這個系統看起來就像這樣：

2.1 第一層AE

這樣就把自編碼器改成了深度結構了，即《learning multiple levels of representation and abstraction》(Hinton, Bengio, LeCun, 2015)。需要注意的是，整個網絡的訓練不是一蹴而就的，而是逐層進行的。比如說我們要訓練一個$n -> m -> k$ 結構的網絡，實際上我們是先訓練網絡$n -> m -> n$，得到$n -> m$的變換，然后再訓練$m -> k -> m$網絡，得到$m -> k$的變換。最終堆疊成SAE，即為$n -> m -> k$的結果，整個過程就像一層層往上面蓋房子，這就是大名鼎鼎的 layer-wise unsuperwised pre-training （逐層非監督預訓練）。

接下來我們來看一個具體的例子，假設你想要訓練一個包含兩個隱藏層的堆疊自編碼器，用來訓練 MNIST 手寫數字分類。

首先，你需要用原始輸入$x(k)$訓練第一個稀疏自編碼器中，它能夠學習得到原始輸入的一階特征表示$h(1)(k)$，如下圖所示：