http://www.cnblogs.com/python27/p/MachineLearningWeek05.htm

這一章可能是Andrew Ng講得最不清楚的一章，為什么這么說呢？這一章主要講后向傳播(Backpropagration, BP)算法，Ng花了一大半的時間在講如何計算誤差項

簡單神經網絡的后向傳播（Backpropagration, BP）算法

1. 回顧之前的前向傳播(ForwardPropagration, FP)算法

FP算法還是很簡單的，說白了就是根據前一層神經元的值，先加權然后取sigmoid函數得到后一層神經元的值，寫成數學的形式就是:

a (1) = X

z (2) = Θ (1) a (1)

a (2) = g (z (2))

z (3) = Θ (2) a (2)

a (3) = g (z (3))

z (4) = Θ (3) a (3)

a (4) = g (z (4))

2. 回顧神經網絡的代價函數(不含regularization項)

3. 一個簡單神經網絡的BP推導過程

BP算法解決了什么問題？我們已經有了代價函數

下面我們從一個簡單的例子入手考慮如何從數學上計算代價函數的梯度，考慮如下簡單的神經網絡（為方便起見，途中已經給出了前向傳播（FP）的計算過程），該神經網絡有三層神經元，對應的有兩個權重矩陣

首先我們先計算第2個權重矩陣的偏導數，即

按照求導的鏈式法則，我們可以先求

\partial \partial Θ ( 2 ) J ( Θ ) = \partial \partial z ( 3 ) J ( Θ ) \times \partial z ( 3 ) \partial

由

\partial \partial Θ ( 2 ) J ( Θ ) = δ ( 3 ) ( a ( 2 ) ) T

接下來僅需要計算

δ (3) = \partial J ( Θ ) z ( 3 ) = ( - y ) 1

至此我們已經得到

\partial J ( Θ ) \partial Θ ( 2 ) = ( a ( 2 ) ) T δ ( 3 )

δ (3) = a (3) - y

接下來我們需要求

根據鏈式求導法則有

\partial J ( Θ ) \partial Θ ( 1 ) = \partial J ( Θ ) \partial z ( 3 ) \partial z

我們分別計算等式右邊的三項可得:

\partial J ( Θ ) \partial z ( 3 ) = δ ( 3 )

\partial z ( 3 ) \partial a ( 2 ) = ( Θ ( 2 ) ) T

\partial a ( 2 ) \partial Θ ( 1 ) = \partial a ( 2 ) \partial z ( 2 ) \partial z

帶入后得

\partial J ( Θ ) \partial Θ ( 1 ) = ( a ( 1 ) ) T δ ( 3 ) ( Θ ( 2 ) ) T

令

\partial J ( Θ ) \partial Θ ( 1 ) = ( a ( 1 ) ) T δ ( 2 )

δ (2) = δ (3) (Θ (2)) T g' (z (2))

把上面的結果放在一起，我們得到

δ (3) = a (3) - y

\partial J ( Θ ) \partial Θ ( 2 ) = ( a ( 2 ) ) T δ ( 3 )

δ (2) = δ (3) (Θ (2)) T g' (z (2))

\partial J ( Θ ) \partial Θ ( 1 ) = ( a ( 1 ) ) T δ ( 2 )

觀察上面的四個等式，我們發現

偏導數可以由當前層神經元向量
當前層的誤差向量

所以可以從后往前逐層計算誤差向量（這就是后向傳播的來源），然后通過簡單的乘法運算得到代價函數對每一層權重矩陣的偏導數。到這里算是終於明白為什么要計算誤差向量，以及為什么誤差向量之間有遞歸關系了。盡管這里的神經網絡十分簡單，推導過程也不是十分嚴謹，但是通過這個簡單的例子，基本能夠理解后向傳播算法的工作原理了。

嚴謹的后向傳播算法（計算梯度）

假設我們有

初始化：設置

For i = 1 : m

設置
通過前向傳播算法（FP）計算對各層的預測值
計算最后一層的誤差向量
更新

end // for

計算梯度:

D (l) i j = 1 m Δ ( l ) i j , j = 0

D (l) i j = 1 m Δ ( l ) i j + λ Θ ( l ) i j , j \neq 0

\partial J ( Θ ) \partial Θ ( l ) = D ( l )

BP實際運用中的技巧

1. 將參數展開成向量

對於四層三個權重矩陣參數

 
                         thetaVec = [Theta1(:); Theta2(:); Theta3(:)];

2. 梯度檢查

為了保證梯度計算的正確性，可以用數值解進行檢查，根據導數的定義

d J ( θ ) d θ \approx J ( θ + ϵ ) - J ( θ - ϵ ) 2 ϵ

Matlab Code 如下

 
                         for  
                         i  
                         = 1 : n 
                        
                         thetaPlus = theta; 
                        
                         thetaPlus( 
                         i 
                         ) = thetaPlus( 
                         i 
                         ) + EPS; 
                        
                         thetaMinus = theta; 
                        
                         thetaMinus( 
                         i 
                         ) = thetaMinus( 
                         i 
                         ) - EPS; 
                        
                         gradApprox( 
                         i 
                         ) = (J(thetaPlus) - J(thetaMinus)) / (2 * EPS); 
                        
                         end

最后檢查 gradApprox 是否約等於之前計算的梯度值即可。需要注意的是：因為近似的梯度計算代價很大，在梯度檢查后記得關閉梯度檢查的代碼。

3. 隨機初始化

初始權重矩陣的初始化應該打破對稱性 (symmetry breaking)，避免使用全零矩陣進行初始化。可以采用隨機數進行初始化，即

如何訓練一個神經網絡

隨機初始化權重矩陣
利用前向傳播算法（FP）計算模型預測值
計算代價函數
利用后向傳播算法（BP）計算代價函數的梯度
利用數值算法進行梯度檢查(gradient checking)，確保正確后關閉梯度檢查
利用梯度下降（或者其他優化算法）求得最優參數

附:一個簡短的后向傳播教學視頻

參考文獻

[1] Andrew Ng Coursera 公開課第五周

[2] Derivation of Backpropagation. http://web.cs.swarthmore.edu/~meeden/cs81/s10/BackPropDeriv.pdf

[3] Wikipedia: Backpropagation. https://en.wikipedia.org/wiki/Backpropagation

[4] How the backpropagation algorithm works. http://neuralnetworksanddeeplearning.com/chap2.html

[5] 神經網絡和反向傳播算法推導. http://www.mamicode.com/info-detail-671452.html

機器學習之反向傳播算法