BP神經網絡梯度下降算法

菜鳥初學人智相關問題，智商低，艱苦學習中，轉文只為保存，其中加上了一些個人注釋，便於更簡單的理解~新手也可以看，共勉。

轉自博客園@ 編程De： http://www.cnblogs.com/jzhlin/archive/2012/07/28/bp.html

從神經網絡的生物模型說起

我們知道人大腦信息的傳遞、對外界刺激產生反應都由神經元控制的，人腦就是由上百億個的這樣神經元構成。這些神經元之間並不孤立而且聯系很密切，每個神經元平均與幾千個神經元相連接，因此構成了人腦的神經網絡。刺激在神經網絡中的傳播是遵循一定的規則的，一個神經元並非每次接到其他神經傳遞過來的刺激都產生反應。它首先會將與其相鄰的神經元傳來的刺激進行積累，到一定的時候產生自己的刺激將其傳遞給一些與它相鄰的神經元。這樣工作的百億個的神經元構成了人腦對外界進行的反應。而人腦對外界刺激的學習的機制就是通過調節這些神經元之間聯系以及其強度。當然，實際上以上說的是對人腦真正神經工作的一種簡化的生物模型，利用這種簡化的生物模型可以將它推廣至機器學習中來，並把它描述成人工神經網絡。BP神經網絡就是其中的一種，來看看具體對神經元的分析。

BP神經網絡神經元

圖1 神經網絡中神經元示意圖

神經元的積累的刺激是由其他神經元傳遞過來的刺激量和對應的權重之和，用 X_j表示這種積累，Y_i表示某個神經元傳遞過來的刺激量，W_i表示鏈接某個神經元刺激的權重，得到公式：

X_j = (y₁ * W₁)+(y₂ * W₂)+...+(y_i * W_i)+...+ (y_n * W_n)

而當 X_j完成積累后，完成積累的神經元本身對周圍的一些神經元傳播刺激，將其表示為 y_j 得到如下所示：

y_j = f（X_j）

神經元根據積累后 X_j的結果進行處理后，對外傳遞刺激 y_j 。用 f 函數映射來表示這種處理，將它稱之為激活函數。

BP神經網絡的構成

分析完單個的神經元后，再來看看它們組成網絡后的情形，用圖形來說明是最直觀的方法，如圖2所示：

BP神經網絡

圖2 BP神經網絡示意圖

第一區域的來說，它們相當於外界的刺激，是刺激的來源並且將刺激傳遞給神經元，因此把第一區域命名為輸入層。第二區域，表示神經元相互之間傳遞刺激相當於人腦里面，因此把第二區命名為隱藏層。第三區域，表示神經元經過多層次相互傳遞后對外界的反應，因此把第三區域命名為輸出層。

簡單的描述就是，輸入層將刺激傳遞給隱藏層，隱藏層通過神經元之間聯系的強度（權重）和傳遞規則（激活函數）將刺激傳到輸出層，輸出層整理隱藏層處理的后的刺激產生最終結果。若有正確的結果，那么將正確的結果和產生的結果進行比較，得到誤差，再逆推對神經網中的鏈接權重進行反饋修正，從而來完成學習的過程。這就是BP神經網的反饋機制，也正是BP（Back Propagation）名字的來源：運用向后反饋的學習機制，來修正神經網中的權重，最終達到輸出正確結果的目的！

BP神經網絡的數學推導

從數學上對BP神經網絡模型進行分析，本文第一部分神經網的生物模型中可以得到關於BP神經網絡的第一個公式(1)：

BP神經網絡公式

對於神經元本身的輸出的激活函數，一般來說選取 Sigmoid 函數，那么可以得到第二個公式（2）：

BP神經網絡公式

弱逼補充：為啥選擇這個激活函數呢？因為這個函數連續可導，平滑性質好，

具體看圖：

至於為啥不選擇其他同樣平滑的函數，who knows...目測是實踐中檢驗出來的。好下面接着看原作者的：

通過以上兩個公式，可以分析出來BP神經網絡中輸出結果的計算過程。每個神經元收到刺激 y_i 然后加權積累（權重 W_ji ）完成后產生 x_j，再通過激活函數產生刺激 y_j，向下一層與它相連的神經元傳遞，依次類推最終輸出結果。

我們再來分析如何利用向后反饋機制來修正神經元權重 W_ji，這一部分數學推導需要運用到多元微分的數學內容。要修正 W_ji就需要得到誤差量。具體來看，首先用 d_j 來表示真實的正確結果，並且設誤差為 E ，那么（ y_j- d_j）對應的就是 E 對於 y_j 的微分增量，即 y_j 減去（ y_j- d_j）后就能得到正確值，得到公式（3）：

BP神經網絡公式