神經網絡中 BP 算法的原理與 Python 實現源碼解析

本文轉載自查看原文 2017-12-25 14:29 10317

最近這段時間系統性的學習了 BP 算法后寫下了這篇學習筆記，因為能力有限，若有明顯錯誤，還請指正。

什么是梯度下降和鏈式求導法則

假設我們有一個函數 J(w)，如下圖所示。

梯度下降示意圖

現在，我們要求當 w 等於什么的時候，J(w) 能夠取到最小值。從圖中我們知道最小值在初始位置的左邊，也就意味着如果想要使 J(w) 最小，w的值需要減小。而初始位置的切線的斜率a > 0（也即該位置對應的導數大於0），w = w – a 就能夠讓 w 的值減小，循環求導更新w直到 J(w) 取得最小值。如果函數J(w)包含多個變量，那么就要分別對不同變量求偏導來更新不同變量的值。

所謂的鏈式求導法則，就是求復合函數的導數：

鏈式求導法則

放個例題，會更加明白一點：

鏈式求導的例子

神經網絡的結構

神經網絡由三部分組成，分別是最左邊的輸入層，隱藏層（實際應用中遠遠不止一層）和最右邊的輸出層。層與層之間用線連接在一起，每條連接線都有一個對應的權重值 w，除了輸入層，一般來說每個神經元還有對應的偏置 b。

神經網絡的結構圖

除了輸入層的神經元，每個神經元都會有加權求和得到的輸入值 z 和將 z 通過 Sigmoid 函數（也即是激活函數）非線性轉化后的輸出值 a，他們之間的計算公式如下

神經元輸出值 a 的計算公式

其中，公式里面的變量l和j表示的是第 l 層的第 j 個神經元，ij 則表示從第 i 個神經元到第 j 個神經元之間的連線，w 表示的是權重，b 表示的是偏置，后面這些符號的含義大體上與這里描述的相似，所以不會再說明。下面的 Gif 動圖可以更加清楚每個神經元輸入輸出值的計算方式（注意，這里的動圖並沒有加上偏置，但使用中都會加上）

動圖顯示計算神經元輸出值

使用激活函數的原因是因為線性模型（無法處理線性不可分的情況）的表達能力不夠，所以這里通常需要加入 Sigmoid 函數來加入非線性因素得到神經元的輸出值。

關於為什么線性函數模型表達能力不夠，可以點擊這里查看知乎上面的討論。

sigmoid 函數

可以看到 Sigmoid 函數的值域為 (0,1) ，若對於多分類任務，輸出層的每個神經元可以表示是該分類的概率。當然還存在其他的激活函數，他們的用途和優缺點也都各異。

BP 算法執行的流程（前向傳遞和逆向更新）

在手工設定了神經網絡的層數，每層的神經元的個數，學習率 η（下面會提到）后，BP 算法會先隨機初始化每條連接線權重和偏置，然后對於訓練集中的每個輸入 x 和輸出 y，BP 算法都會先執行前向傳輸得到預測值，然后根據真實值與預測值之間的誤差執行逆向反饋更新神經網絡中每條連接線的權重和每層的偏好。在沒有到達停止條件的情況下重復上述過程。

其中，停止條件可以是下面這三條

● 權重的更新低於某個閾值的時候

● 預測的錯誤率低於某個閾值

● 達到預設一定的迭代次數

譬如說，手寫數字識別中，一張手寫數字1的圖片儲存了28*28 = 784個像素點，每個像素點儲存着灰度值(值域為[0,255])，那么就意味着有784個神經元作為輸入層，而輸出層有10個神經元代表數字0~9，每個神經元取值為0~1，代表着這張圖片是這個數字的概率。

每輸入一張圖片（也就是實例），神經網絡會執行前向傳輸一層一層的計算到輸出層神經元的值，根據哪個輸出神經元的值最大來預測輸入圖片所代表的手寫數字。

然后根據輸出神經元的值，計算出預測值與真實值之間的誤差，再逆向反饋更新神經網絡中每條連接線的權重和每個神經元的偏好。

前向傳輸（Feed-Forward）

從輸入層=>隱藏層=>輸出層，一層一層的計算所有神經元輸出值的過程。

逆向反饋（Back Propagation）

因為輸出層的值與真實的值會存在誤差，我們可以用均方誤差來衡量預測值和真實值之間的誤差。

均方誤差

逆向反饋的目標就是讓E函數的值盡可能的小，而每個神經元的輸出值是由該點的連接線對應的權重值和該層對應的偏好所決定的，因此，要讓誤差函數達到最小，我們就要調整w和b值，使得誤差函數的值最小。

權重和偏置的更新公式

對目標函數 E 求 w 和 b 的偏導可以得到 w 和 b 的更新量，下面拿求 w 偏導來做推導。

其中 η 為學習率，取值通常為 0.1 ~ 0.3,可以理解為每次梯度所邁的步伐。注意到 w_hj 的值先影響到第 j 個輸出層神經元的輸入值a，再影響到輸出值y，根據鏈式求導法則有：

使用鏈式法則展開對權重求偏導

根據神經元輸出值 a 的定義有：

對函數 z 求 w 的偏導

Sigmoid 求導數的式子如下，從式子中可以發現其在計算機中實現也是非常的方便：

Sigmoid 函數求導

所以

則權重 w 的更新量為：

類似可得 b 的更新量為：

但這兩個公式只能夠更新輸出層與前一層連接線的權重和輸出層的偏置，原因是因為 δ 值依賴了真實值y這個變量，但是我們只知道輸出層的真實值而不知道每層隱藏層的真實值，導致無法計算每層隱藏層的 δ 值，所以我們希望能夠利用 l+1 層的 δ 值來計算 l 層的 δ 值，而恰恰通過一些列數學轉換后可以做到，這也就是逆向反饋名字的由來，公式如下: