稀疏自編碼器的學習結構:

稀疏自編碼器Ⅰ：

神經網絡

反向傳導算法

梯度檢驗與高級優化

稀疏自編碼器Ⅱ：

自編碼算法與稀疏性

可視化自編碼器訓練結果

Exercise: Sparse Autoencoder

稀疏自編碼器Ⅰ這部分先簡單講述神經網絡的部分，它和稀疏自編碼器關系很大。

神經網絡

基本概念：

Topics: connection weights, bias, activation function

神經元（運算單元）：連接關系，輸入與權值

生物神經元：Synapse, axon, dendrite

激活函數（映射關系）: sigmoid, tanh, linear activation, rectified linear, softmax …

以及激活函數的導數: g(a)=a, g'(a)=1;

g(a) = sigm(a)=1/1+exp(-a), g'(a)=g(a)(1-g(a));

g(a) = tanh(a)=exp(a)-exp(-a)/exp(a)+exp(-a) =exp(2a)-1/exp(2a)+1, g'(a)=1-g(a)^2

Topics: capacity, decision boundary of neuron

single neuron can solve linearly separable problems，do binary classification

Can't solve non linearly separable problems...

神經網絡模型

神經網絡就是將許多個單一"神經元"聯結在一起。

有輸入層，隱藏層（可多層），輸出層。

Topics: CAPACITY OF NEURAL NETWORK

Universal approximation theorem (Hornik, 1991):

‣ ''a single hidden layer neural network with a linear output unit can approximate any continuous function arbitrarily well, given enough hidden units''

只要隱含層單元個數足夠多，就一個隱藏層的神經網絡就能近似表示任何復雜連續函數。這個定理至關重要！

但是這不代表就能找到一個好的算法去找到合適的參數。

這就是神經網絡之前研究蕭條的原因之一，另一個曾經出現過的原因是一個神經元不能處理非線性可分的分類任務，如實現異或邏輯。

Topics: multilayer neural network

一層不夠好，那就多層，甚至現如今火的深度網絡。也是有生物理論背景的（visual cortex），也有些方法來訓練網絡，調整參數的。以后一邊學一邊總結。

forward propagation 前向傳播

總結為前一層是后一層的輸入，但注意中間層的激活函數和輸出層的激活函數可能不同。也是forward propagation 前向傳播的流程。

Topics: empirical risk minimization, regularization

最后，從機器學習中的監督學習角度來說，假設我們有訓練樣本集（Xi，Yi ），那么神經網絡算法能夠提供一種復雜且非線性的假設模型H(X) ，它具有參數W, b，可以以此參數來擬合我們的數據。

即Empirical risk minimization（期望風險/損失最小化）

‣ framework to design learning algorithms

最終學習問題轉化為最優化問題。優化方法有許多。

這里介紹常用的一種方法：隨機梯度下降法，stochastic gradient descent (SGD)，注意下圖用的是stochastic隨機（單個each），而ufldl老教程用的是batch批量梯度下降法來訓練神經網絡，當然還可以有min-batch（部分）。且ufldl實驗中使用了L-BFGS optimization algorithm的函數包來進行優化。L-BFGS is a limited-memory quasi-Newton code for unconstrained optimization.