第二節，神經網絡中反向傳播四個基本公式證明——BackPropagation

本文轉載自查看原文 2018-03-09 22:06 2395 theano使用/ 深度學習

假設一個三層的神經網絡結構圖如下：

對於一個單獨的訓練樣本x其二次代價函數可以寫成：

C = 1/2|| y - a^L||² = 1/2∑_j(y_j - a_j^L)²

a_j^L=σ(z_j^L)

z_j^l = ∑_kω_jk^la_k^l-1 + b_j^l

代價函數C是a_j^L的函數，a_j^L又是z_j^L的函數，z_j^L又是ω_jk^L的函數，同時又是a_k^L-1的函數......

證明四個基本方程(BP1-BP4)，所有這些都是多元微積分的鏈式法則的推論

δ_j^L = (∂C/∂a_j^L)σ'(z_j^L) (BP1)

δ_j^l = ∑_kω_kj^l+1δ_k^l+1σ'(z_j^l) (BP2)

　　　 ∂C/∂ω_jk^l= δ_j^la_k^l-1(BP3)

∂C/∂b_j^l= δ_j^l(BP4)

1.讓我們從方程(BP1)開始，它給出了輸出誤差δ^L的表達式。

δ_j^L = ∂C/∂z_j^L

應用鏈式法則，我們可以就輸出激活值的偏導數的形式重新表示上面的偏導數：

δ_j^L = ∑_k(∂C/∂a_k^L)(∂a_k^L/∂z_j^L)

這里求和是在輸出層的所有神經元k上運行的，當然，第k^th個神經元的輸出激活值a_k^L只依賴於當k=j時第j^th個神經元的帶權輸入z_j^L。所以當k≠j

時，∂a_k^L/∂z_j^L=0。結果簡化為：

δ_j^L = (∂C/∂a_j^L)(∂a_j^L/∂z_j^L)

由於a_j^L=σ(z_j^L)，右邊第二項可以寫成σ'(z_j^L)，方程變成

δ_j^L = (∂C/∂a_j^L)σ‘(z_j^L)

2.證明BP2，它給出了下一層誤差δ^l+1的形式表示誤差δ^l。為此我們要以δ_k^l+1=∂C/∂z_k^l+1的形式重寫 δ_j^l = ∂C/∂z_j^l

δ_j^l = ∂C/∂z_j^l

=∑_k(∂C/∂z_k^l+1)(∂z_k^l+1/∂z_j^l)

=∑_k(∂z_k^l+1/∂z_j^l)δ_k^l+1

這里最后一行我們交換了右邊的兩項，並用δ_k^l+1的定義帶入。為此我們對最后一行的第一項求值，

注意：

z_k^l+1 = ∑_jω_kj^l+1a_j^l + b_k^l+1 = ∑_jω_kj^l+1σ(z_j^l) + b_k^l+1

做微分得到

∂z_k^l+1 /∂z_j^l = ω_kj^l+1σ'(z_j^l)

帶入上式:

δ_j^l = ∑_kω_kj^l+1δ_k^l+1σ'(z_j^l)

3.證明BP3。計算輸出層∂C/∂ω_jk^L：

∂C/∂ω_jkL = ∑_m (∂C/∂a_m^L)(∂a_m^L/∂ω_jk^L )

這里求和是在輸出層的所有神經元k上運行的，當然，第k^th個神經元的輸出激活值a_m^L只依賴於當m=j時第j^th個神經元的輸入權重ω_jk^L。所以當k≠j

　時，∂a_m^L/∂ω_jk^L=0。結果簡化為：

　　 ∂C/∂ω_jk^L = (∂C/∂a_j^L)(∂a_j^L/∂z_j^L)*(∂z_j^L/∂ω_jk^L)

= δ_j^La_k^L-1

計算輸入層上一層(L-1):

∂C/∂ω_jk^L-1= (∑_m(∂C/∂a_m^L)(∂a_m^L/∂z_m^L)(∂z_m^L/∂a_j^L-1))(/∂a_j^L-1/∂z_j^L-1)(∂z_j^L-1/∂ω_jk^L-1)

= (∑_mδ_m^Lω_mj^L)σ'(z_j^L-1)a_k^L-2

= δ_j^L-1a_k^L-2

對於處輸入層的任何一層(l)：

∂C/∂ω_jk^l= (∂C/∂z_j^l )(∂z_j^l/∂ω_jk^l) = δ_j^la_k^l-1

4.證明BP4。計算輸出層∂C/∂b_j^L：

∂C/∂b_j^L = ∑_m (∂C/∂a_m^L)(∂a_m^L/∂b_j^L )

這里求和是在輸出層的所有神經元k上運行的，當然，第k^th個神經元的輸出激活值a_m^L只依賴於當m=j時第j^th個神經元的輸入權重b_j^L。所以當k≠j

　時，∂a_m^L/∂b_j^L=0。結果簡化為：

　　 ∂C/∂b_j^L = (∂C/∂a_j^L)(∂a_j^L/∂z_j^L)*(∂z_j^L/∂b_j^L)

= δ_j^L

計算輸入層上一層(L-1):

∂C/∂b_j^L-1= (∑_m(∂C/∂a_m^L)(∂a_m^L/∂z_m^L)(∂z_m^L/∂a_j^L-1))(/∂a_j^L-1/∂z_j^L-1)(∂z_j^L-1/∂b_j^L-1)

= (∑_mδ_m^Lω_mj^L)σ'(z_j^L-1)

= δ_j^L-1

對於處輸入層的任何一層(l)：

∂C/∂b_j^l= (∂C/∂z_j^l )(∂z_j^l/∂b_j^l) = δ_j^l

參考文獻

[1]]神經網絡基礎

[2]Neural Networks and Deep Learning. Michael A. Nielsen

[3] 一文弄懂神經網絡中的反向傳播法

[4]深度神經網絡（DNN）反向傳播算法(BP)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 一文弄懂神經網絡中的反向傳播法——BackPropagation 一文弄懂神經網絡中的反向傳播法——BackPropagation 一文弄懂神經網絡中的反向傳播法——BackPropagation 神經網絡前向傳播和反向傳播公式詳細推導卷積神經網絡中的反向傳播神經網絡——反向傳播BP算法公式推導神經網絡前向傳播與反向傳播第二節，TensorFlow 使用前饋神經網絡實現手寫數字識別神經網絡中的參數的求解：前向和反向傳播算法【零基礎】看懂神經網絡中的反向傳播