神經網絡,前向傳播FP和反向傳播BP


1 神經網絡

神經網絡就是將許多個單一“神經元”聯結在一起,這樣,一個“神經元”的輸出就可以是另一個“神經元”的輸入。例如,下圖就是一個簡單的神經網絡:

Network331.png

我們使用圓圈來表示神經網絡的輸入,標上“\textstyle +1”的圓圈被稱為偏置節點,也就是截距項。神經網絡最左邊的一層叫做輸入層,最右的一層叫做輸出層(本例中,輸出層只有一個節點)。中間所有節點組成的一層叫做隱藏層,因為我們不能在訓練樣本集中觀測到它們的值。同時可以看到,以上神經網絡的例子中有3個輸入單元(偏置單元不計在內),3個隱藏單元及一個輸出單元


我們用 \textstyle {n}_l 來表示網絡的層數,本例中 \textstyle n_l=3 ,我們將第 \textstyle l 層記為 \textstyle L_l ,於是 \textstyle L_1 是輸入層,輸出層是 \textstyle L_{n_l} 。本例神經網絡有參數 \textstyle (W,b) = (W^{(1)}, b^{(1)}, W^{(2)}, b^{(2)}),其中 \textstyle W^{(l)}_{ij} (下面的式子中用到)是第 \textstyle l 層第 \textstyle j 單元與第 \textstyle l+1 層第 \textstyle i 單元之間的聯接參數(其實就是連接線上的權重,注意標號順序), \textstyle b^{(l)}_i 是第 \textstyle l+1 層第 \textstyle i單元的偏置項。因此在本例中, \textstyle W^{(1)} \in \Re^{3\times 3} , \textstyle W^{(2)} \in \Re^{1\times 3} 。注意,沒有其他單元連向偏置單元(即偏置單元沒有輸入),因為它們總是輸出 \textstyle +1。同時,我們用 \textstyle s_l 表示第 \textstyle l 層的節點數(偏置單元不計在內)。

2 前向傳播FP

 

我們用 \textstyle a^{(l)}_i 表示第 \textstyle l 層第 \textstyle i 單元的激活值(輸出值)。當 \textstyle l=1 時, \textstyle a^{(1)}_i = x_i ,也就是第 \textstyle i 個輸入值(輸入值的第 \textstyle i 個特征)。對於給定參數集合 \textstyle W,b ,我們的神經網絡就可以按照函數 \textstyle h_{W,b}(x) 來計算輸出結果。本例神經網絡的計算步驟如下:

 
\begin{align}
a_1^{(2)} &= f(W_{11}^{(1)}x_1 + W_{12}^{(1)} x_2 + W_{13}^{(1)} x_3 + b_1^{(1)})  \\
a_2^{(2)} &= f(W_{21}^{(1)}x_1 + W_{22}^{(1)} x_2 + W_{23}^{(1)} x_3 + b_2^{(1)})  \\
a_3^{(2)} &= f(W_{31}^{(1)}x_1 + W_{32}^{(1)} x_2 + W_{33}^{(1)} x_3 + b_3^{(1)})  \\
h_{W,b}(x) &= a_1^{(3)} =  f(W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)} a_2^{(2)} + W_{13}^{(2)} a_3^{(2)} + b_1^{(2)}) 
\end{align}

我們用 \textstyle z^{(l)}_i 表示第 \textstyle l 層第 \textstyle i 單元輸入加權和(包括偏置單元),比如, \textstyle  z_i^{(2)} = \sum_{j=1}^n W^{(1)}_{ij} x_j + b^{(1)}_i ,則 \textstyle a^{(l)}_i = f(z^{(l)}_i) 。


這樣我們就可以得到一種更簡潔的表示法。這里我們將激活函數 \textstyle f(\cdot) 擴展為用向量(分量的形式)來表示,即 \textstyle f([z_1, z_2, z_3]) = [f(z_1), f(z_2), f(z_3)] ,那么,上面的等式可以更簡潔地表示為:

 

\begin{align}
z^{(2)} &= W^{(1)} x + b^{(1)} \\
a^{(2)} &= f(z^{(2)}) \\
z^{(3)} &= W^{(2)} a^{(2)} + b^{(2)} \\
h_{W,b}(x) &= a^{(3)} = f(z^{(3)})
\end{align}


我們將上面的計算步驟叫作前向傳播。回想一下,之前我們用 \textstyle a^{(1)} = x 表示輸入層的激活值,那么給定第 \textstyle l 層的激活值 \textstyle a^{(l)} 后,第 \textstyle l+1 層的激活值 \textstyle a^{(l+1)} 就可以按照下面步驟計算得到:

 

 \begin{align}
z^{(l+1)} &= W^{(l)} a^{(l)} + b^{(l)}   \\
a^{(l+1)} &= f(z^{(l+1)})
\end{align}


將參數矩陣化,使用矩陣-向量運算方式,我們就可以利用線性代數的優勢對神經網絡進行快速求解。


目前為止,我們討論了一種神經網絡,我們也可以構建另一種結構的神經網絡(這里結構指的是神經元之間的聯接模式),也就是包含多個隱藏層的神經網絡。最常見的一個例子是 \textstyle  n_l 層的神經網絡,第 \textstyle  1 層是輸入層,第 \textstyle  n_l 層是輸出層,中間的每個層 \textstyle  l 與層 \textstyle  l+1 緊密相聯。這種模式下,要計算神經網絡的輸出結果,我們可以按照之前描述的等式,按部就班,進行前向傳播,逐一計算第 \textstyle  L_2 層的所有激活值,然后是第 \textstyle  L_3 層的激活值,以此類推,直到第 \textstyle  L_{n_l} 層。這是一個前饋神經網絡的例子,因為這種聯接圖沒有閉環或回路。


神經網絡也可以有多個輸出單元。比如,下面的神經網絡有兩層隱藏層: \textstyle L_2 及 \textstyle L_3 ,輸出層 \textstyle L_4 有兩個輸出單元。

 

Network3322.png


要求解這樣的神經網絡,需要樣本集 \textstyle (x^{(i)}, y^{(i)}) ,其中 \textstyle y^{(i)} \in \Re^2 。如果你想預測的輸出是多個的,那這種神經網絡很適用。(比如,在醫療診斷應用中,患者的體征指標就可以作為向量的輸入值,而不同的輸出值 \textstyle y_i 可以表示不同的疾病存在與否。)

3 反向傳播BP

前面用初始化的聯結權重計算的輸出層值和實際值肯定會有很大的偏差,我們需要對連接權重進行優化,此時就需要使用反向傳播算法。

  現在假設經過前向傳播算法計算的某個輸出值為ykyk,表示輸出層的第kk個輸出,而其實際的值為tktk(訓練樣本的標簽值是已知的,不然怎么訓練)。那么誤差函數定義如下: 

 

 


后向傳播算法是通過梯度下降的方法對聯結權重進行優化,所以需要計算誤差函數對聯結權重的偏導數。

1.計算總誤差

總誤差:(square error)

但是有兩個輸出,所以分別計算o1和o2的誤差,總誤差為兩者之和:

 

2.隱含層---->輸出層的權值更新:

以權重參數w5為例,如果我們想知道w5對整體誤差產生了多少影響,可以用整體誤差對w5求偏導求出:(鏈式法則)

下面的圖可以更直觀的看清楚誤差是怎樣反向傳播的:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM