神經網絡的前向傳播和反向傳播公式詳細推導

本篇博客是對Michael Nielsen所著的《Neural Network and Deep Learning》第2章內容的解讀，有興趣的朋友可以直接閱讀原文Neural Network and Deep Learning。

　　對神經網絡有些了解的人可能都知道，神經網絡其實就是一個輸入 $X$ 到輸出 $Y$ 的映射函數： $f (X) = Y$ ，函數的系數就是我們所要訓練的網絡參數 $W$ ，只要函數系數確定下來，對於任何輸入 $x_{i}$ 我們就能得到一個與之對應的輸出 $y_{i}$ ，至於 $y_{i}$ 是否符合我們預期，這就屬於如何提高模型性能方面的問題了，本文不做討論。

　　那么問題來了，現在我們手中只有訓練集的輸入 $X$ 和輸出 $Y$ ，我們應該如何調整網絡參數 $W$ 使網絡實際的輸出 $f (X) = \hat{Y}$ 與訓練集的 $Y$ 盡可能接近？

　　在開始正式講解之前，讓我們先對反向傳播過程有一個直觀上的印象。反向傳播算法的核心是代價函數 $C$ 對網絡中參數（各層的權重 $w$ 和偏置 $b$ ）的偏導表達式。這些表達式描述了代價函數值 $C$ 隨權重 $w$ 或偏置 $b$ 變化而變化的程度。到這里，BP算法的思路就很容易理解了：如果當前代價函數值距離預期值較遠，那么我們通過調整 $w$ 和 $b$ 的值使新的代價函數值更接近預期值（和預期值相差越大，則 $w$ 和 $b$ 調整的幅度就越大）。一直重復該過程，直到最終的代價函數值在誤差范圍內，則算法停止。

　　BP算法可以告訴我們神經網絡在每次迭代中，網絡的參數是如何變化的，理解這個過程對於我們分析網絡性能或優化過程是非常有幫助的，所以還是盡可能搞透這個點。我也是之前大致看過，然后發現看一些進階知識還是需要BP的推導過程作為支撐，所以才重新整理出這么一篇博客。

前向傳播過程

　　在開始反向傳播之前，先提一下前向傳播過程，即網絡如何根據輸入 $X$ 得到輸出 $Y$ 的。這個很容易理解，粗略看一下即可，這里主要是為了統一后面的符號表達。

記 $w_{j k}^{l}$ 為第 $l - 1$ 層第 $k$ 個神經元到第 $l$ 層第 $j$ 個神經元的權重， $b_{j}^{l}$ 為第 $l$ 層第 $j$ 個神經元的偏置， $a_{j}^{l}$ 為第 $l$ 層第 $j$ 個神經元的激活值（激活函數的輸出）。不難看出， $a_{j}^{l}$ 的值取決於上一層神經元的激活：

將上式重寫為矩陣形式：

為了方便表示，記為每一層的權重輸入， $(2)$ 式則變為 $a^{l} = σ (z^{l})$ 。

　　利用 $(2)$ 式一層層計算網絡的激活值，最終能夠根據輸入 $X$ 得到相應的輸出 $\hat{Y}$ 。

反向傳播過程

反向傳播的四個基本方程

　　如上圖所示，假設有個小惡魔在第 $l$ 層第 $j$ 個單元搗蛋，他讓這個神經元的權重輸出變化了 $Δ z_{j}^{l}$ ，那么這個神經元的激活輸出為，然后這個誤差向后逐層傳播下去，導致最終的代價函數變化了。現在這個小惡魔改過自新，它想幫助我們盡可能減小代價函數的值（使網絡輸出更符合預期）。假設一開始是個很大的正值或者負值，小惡魔通過選擇一個和方向相反的 $Δ z_{j}^{l}$ 使代價函數更小（這就是我們熟知的梯度下降法）。隨着迭代的進行，會逐漸趨向於0，那么 $Δ z_{j}^{l}$ 對於代價函數的改進效果就微乎其微了，這時小惡魔就一臉驕傲的告訴你：“俺已經找到了最優解了（局部最優）”。這啟發我們可以用來衡量神經元的誤差：