棧式自編碼算法

本文轉載自查看原文 2014-02-23 22:43 2928 Deep Learning

對於一個擁有輸入層，隱藏層，輸出層的三層神經網絡，我們稱之為shallow learning，它處理輸入特征明顯的數據效果很好，但對於比較復雜的數據需要引入更多的隱藏層，因為每一個隱藏層可以看作對上一層輸出的非線性轉換，也就可以學習到更加復雜的模型。

但是單純的在原來三層網絡上曾加隱藏層並沒有帶來更好的效果，因為層數曾加以后使用梯度下降法優化的是一個高度非凸的優化問題，訓練誤差很容易陷入局部極值，還有通過反向傳導算法計算導數的時候，隨着網絡深度的增加，反向傳導的梯度幅值會急劇減小，使得網絡中最初幾層的權值在訓練過程中調整的幅度非常小，我在使用具體數據實驗時，曾加隱藏層的個數對於最終的結果幾乎沒影響，原因在於，對於深度網絡反向傳導時主要訓練的只是最后的logistic層，對於前面的幾層只是進行一些微調。

要解決上述問題我們需要預訓練深度網絡，即逐層的訓練參數，然后把預訓練完成的隱藏層級聯在一起，在這之前首先介紹自編碼器，它是一種無監督學習，通過自編碼器計算出的權重已收斂於合理的范圍之內，相比之前隨機的選擇權重明顯靠譜很多。

自編碼器

自編碼神經網絡是一種無監督學習算法，它使用反向傳播算法訓練權重值，比如下圖

可以看到輸入層與輸出層的神經元數量相等，自編碼神經網絡嘗試學習一個的函數。換句話說，它嘗試逼近一個恆等函數，從而使得輸出接近於輸入。恆等函數雖然看上去不太有學習的意義，但是當我們為自編碼神經網絡加入某些限制，比如限定隱藏神經元的數量，我們就可以從輸入數據中發現一些有趣的結構。舉例來說，假設某個自編碼神經網絡的輸入是一張圖像（共100個像素）的像素灰度值，於是，其隱藏層中有50個隱藏神經元。注意，輸出也是100維的。由於只有50個隱藏神經元，我們迫使自編碼神經網絡去學習輸入數據的壓縮表示，也就是說，它必須從50維的隱藏神經元激活度向量中重構出100維的像素灰度值輸入。如果網絡的輸入數據是完全隨機的，比如每一個輸入都是一個跟其它特征完全無關的獨立同分布高斯隨機變量，那么這一壓縮表示將會非常難學習。但是如果輸入數據中隱含着一些特定的結構，比如某些輸入特征是彼此相關的，那么這一算法就可以發現輸入數據中的這些相關性。事實上，這一簡單的自編碼神經網絡通常可以學習出一個跟主元分析（PCA）結果非常相似的輸入數據的低維表示。