神經網絡，前向傳播FP和反向傳播BP

本文轉載自查看原文 2018-07-27 16:52 2024

１　神經網絡

神經網絡就是將許多個單一“神經元”聯結在一起，這樣，一個“神經元”的輸出就可以是另一個“神經元”的輸入。例如，下圖就是一個簡單的神經網絡：

我們使用圓圈來表示神經網絡的輸入，標上“ $\textstyle +1$ ”的圓圈被稱為偏置節點，也就是截距項。神經網絡最左邊的一層叫做輸入層，最右的一層叫做輸出層（本例中，輸出層只有一個節點）。中間所有節點組成的一層叫做隱藏層，因為我們不能在訓練樣本集中觀測到它們的值。同時可以看到，以上神經網絡的例子中有3個輸入單元（偏置單元不計在內），3個隱藏單元及一個輸出單元。

我們用 $\textstyle {n}_l$ 來表示網絡的層數，本例中 $\textstyle n_l=3$ ，我們將第 $\textstyle l$ 層記為 $\textstyle L_l$ ，於是 $\textstyle L_1$ 是輸入層，輸出層是 $\textstyle L_{n_l}$ 。本例神經網絡有參數 $\textstyle (W,b) = (W^{(1)}, b^{(1)}, W^{(2)}, b^{(2)})$ ，其中 $\textstyle W^{(l)}_{ij}$ （下面的式子中用到）是第 $\textstyle l$ 層第 $\textstyle j$ 單元與第 $\textstyle l+1$ 層第 $\textstyle i$ 單元之間的聯接參數（其實就是連接線上的權重，注意標號順序）， $\textstyle b^{(l)}_i$ 是第 $\textstyle l+1$ 層第 $\textstyle i$ 單元的偏置項。因此在本例中， $\textstyle W^{(1)} \in \Re^{3\times 3}$ ， $\textstyle W^{(2)} \in \Re^{1\times 3}$ 。注意，沒有其他單元連向偏置單元(即偏置單元沒有輸入)，因為它們總是輸出 $\textstyle +1$ 。同時，我們用 $\textstyle s_l$ 表示第 $\textstyle l$ 層的節點數（偏置單元不計在內）。

２　前向傳播FP

我們用 $\textstyle a^{(l)}_i$ 表示第 $\textstyle l$ 層第 $\textstyle i$ 單元的激活值（輸出值）。當 $\textstyle l=1$ 時， $\textstyle a^{(1)}_i = x_i$ ，也就是第 $\textstyle i$ 個輸入值（輸入值的第 $\textstyle i$ 個特征）。對於給定參數集合 $\textstyle W,b$ ，我們的神經網絡就可以按照函數 $\textstyle h_{W,b}(x)$ 來計算輸出結果。本例神經網絡的計算步驟如下：

$\begin{align} a_1^{(2)} &= f(W_{11}^{(1)}x_1 + W_{12}^{(1)} x_2 + W_{13}^{(1)} x_3 + b_1^{(1)}) \\ a_2^{(2)} &= f(W_{21}^{(1)}x_1 + W_{22}^{(1)} x_2 + W_{23}^{(1)} x_3 + b_2^{(1)}) \\ a_3^{(2)} &= f(W_{31}^{(1)}x_1 + W_{32}^{(1)} x_2 + W_{33}^{(1)} x_3 + b_3^{(1)}) \\ h_{W,b}(x) &= a_1^{(3)} = f(W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)} a_2^{(2)} + W_{13}^{(2)} a_3^{(2)} + b_1^{(2)}) \end{align}$

我們用 $\textstyle z^{(l)}_i$ 表示第 $\textstyle l$ 層第 $\textstyle i$ 單元輸入加權和（包括偏置單元），比如， $\textstyle z_i^{(2)} = \sum_{j=1}^n W^{(1)}_{ij} x_j + b^{(1)}_i$ ，則 $\textstyle a^{(l)}_i = f(z^{(l)}_i)$ 。

這樣我們就可以得到一種更簡潔的表示法。這里我們將激活函數 $\textstyle f(\cdot)$ 擴展為用向量（分量的形式）來表示，即 $\textstyle f([z_1, z_2, z_3]) = [f(z_1), f(z_2), f(z_3)]$ ，那么，上面的等式可以更簡潔地表示為：

$\begin{align} z^{(2)} &= W^{(1)} x + b^{(1)} \\ a^{(2)} &= f(z^{(2)}) \\ z^{(3)} &= W^{(2)} a^{(2)} + b^{(2)} \\ h_{W,b}(x) &= a^{(3)} = f(z^{(3)}) \end{align}$

我們將上面的計算步驟叫作前向傳播。回想一下，之前我們用 $\textstyle a^{(1)} = x$ 表示輸入層的激活值，那么給定第 $\textstyle l$ 層的激活值 $\textstyle a^{(l)}$ 后，第 $\textstyle l+1$ 層的激活值 $\textstyle a^{(l+1)}$ 就可以按照下面步驟計算得到：

$\begin{align} z^{(l+1)} &= W^{(l)} a^{(l)} + b^{(l)} \\ a^{(l+1)} &= f(z^{(l+1)}) \end{align}$

將參數矩陣化，使用矩陣－向量運算方式，我們就可以利用線性代數的優勢對神經網絡進行快速求解。

目前為止，我們討論了一種神經網絡，我們也可以構建另一種結構的神經網絡（這里結構指的是神經元之間的聯接模式），也就是包含多個隱藏層的神經網絡。最常見的一個例子是 $\textstyle n_l$ 層的神經網絡，第 $\textstyle 1$ 層是輸入層，第 $\textstyle n_l$ 層是輸出層，中間的每個層 $\textstyle l$ 與層 $\textstyle l+1$ 緊密相聯。這種模式下，要計算神經網絡的輸出結果，我們可以按照之前描述的等式，按部就班，進行前向傳播，逐一計算第 $\textstyle L_2$ 層的所有激活值，然后是第 $\textstyle L_3$ 層的激活值，以此類推，直到第 $\textstyle L_{n_l}$ 層。這是一個前饋神經網絡的例子，因為這種聯接圖沒有閉環或回路。

神經網絡也可以有多個輸出單元。比如，下面的神經網絡有兩層隱藏層： $\textstyle L_2$ 及 $\textstyle L_3$ ，輸出層 $\textstyle L_4$ 有兩個輸出單元。

要求解這樣的神經網絡，需要樣本集 $\textstyle (x^{(i)}, y^{(i)})$ ，其中 $\textstyle y^{(i)} \in \Re^2$ 。如果你想預測的輸出是多個的，那這種神經網絡很適用。（比如，在醫療診斷應用中，患者的體征指標就可以作為向量的輸入值，而不同的輸出值 $\textstyle y_i$ 可以表示不同的疾病存在與否。）