如果感覺自己看不懂，那就看看我博客的梯度下降法，博文最后的感知機也算最簡單的BP神經網絡吧，用的也是反饋(w,b)：典型梯度下降法

BP網絡的結構

BP網絡的結構如下圖所示，分為輸入層(Input)，隱含層（Hidden），輸出層(Output)。
輸入層的結點個數取決於輸入的特征個數。
輸出層的結點個數由分類的種類決定。
在輸入層和輸出層之間通常還有若干個隱含層，至於隱含層的個數以及每個隱含層的結點個數由訓練工程師的經驗來人為設定。
鏈接A曾提到由萬能逼近定理，一般一個隱含層就足夠了。且這個隱含層一般結點個數為：
這里寫圖片描述。
其中：I為輸入層結點個數，O為輸出層結點個數，a為1～10范圍內的調節常數。

就車牌識別中識別數字0～9的BP網絡來說：輸入層的每個結點就是的待訓練的圖像每種特征，常見的車牌數字識別有從上到下的每個結點縮放成規定大小的0~9數字圖像的每個像素點值。那么輸出的結點就只有0～9十個結點。

這里寫圖片描述

輸入層與隱含層的權重矩陣記為：W_IK，其中隱含層的每個結點與輸入層的每個結點都相連，輸入層的每個結點與隱含層之間都有一個權重，這樣W_IK就是一個I*H的矩陣，同理W_HO就是一個H*O的矩陣。

為了便於后續公式的推導以及明確各個參數的意義，這里特地說明，如下圖：
輸入層的結點個數為I，
隱含層的結點個數為H，
輸出層的結點個數為O；

設輸入層有任一結點i，
設隱含層有任一結點k，
設輸出層有任一結點j；

其中結點i與結點k之間的權重為W_ik開始訓練前由人為設定初始值;
其中結點k與結點j之間的權重為W_kj開始訓練前由人為設定初始值;

對於輸出層
設結點j的教師信號為S_j，注：教師信號就是實際值（訓練值）
j的當前偏置為B_j開始訓練前由人為設定初始值,
設結點j的初始輸出的結果為y_j，
設結點j的最終輸出結果為Y_j,
注意：Y_j是y_j經過激勵函數作用后的值-> Y_j = f(y_j)

對於隱含層：
隱含層沒有教師信號，
設k的當前偏置為B_k開始訓練前由人為設定初始值;
設結點k的初始輸出的結果為y_k,
設結點k的最終輸出結果為Y_k,
注意：Y_k是y_k經過激勵函數作用后的值-> Y_k=f(y_k)

對於輸入層：
輸入層結點沒有教師信號，沒計算值，沒有閾值，只有一個結點值
結點i的值為X_i,
這里寫圖片描述

BP算法思想

激勵函數

下面解釋為什么每個結點要由一開始的輸出結果經過激勵函數處理下：
因為y_i其實是由Y_i與B_j以及W_ij以線性函數的形式得到，而根據整個BP算法設計思想要根據每次結點的輸出來偏微分來調整每個結點的權重來實現訓練目的(這也就是所謂的梯度下降法)，這就需要輸出是基於輸入的可微分函數，同時為方便歸一化的比較輸出層每個結點每次輸出的結果，就采用下述兩種激勵函數。