神經網絡反向傳播的數學原理(轉)

本文轉載自查看原文 2019-10-12 11:49 456 ai

如果能二秒內在腦袋里解出下面的問題，本文便結束了。

已知： $J=(Xw-y)^T(Xw-y)=||Xw-y||^2$ ，其中 $X\in R^{m \times n}, w \in R^{n \times 1}, y \in R^{m \times 1}$ 。

求： $\frac{\partial J}{\partial X}$ ， $\frac{\partial J}{\partial w}$ ， $\frac{\partial J}{\partial y}$ 。

到這里，請耐心看完下面的公式推導，無需長久心里建設。

首先，反向傳播的數學原理是“求導的鏈式法則” :

設 $f$ 和 $g$ 為 $x$ 的可導函數，則 $(f \circ g)'(x) = f'(g(x))g'(x)$ 。

接下來介紹

矩陣、向量求導的維數相容原則
利用維數相容原則快速推導反向傳播
編程實現前向傳播、反向傳播
卷積神經網絡的反向傳播

快速矩陣、向量求導

這一節展示如何使用鏈式法則、轉置、組合等技巧來快速完成對矩陣、向量的求導

一個原則維數相容，實質是多元微分基本知識，沒有在課本中找到下列內容，維數相容原則是我個人總結：

維數相容原則：通過前后換序、轉置使求導結果滿足矩陣乘法且結果維數滿足下式：

如果 $x\in R^{m\times n}$ ， $f(x)\in R^1$ ，那么 $\frac{\partial f(x)}{\partial x} \in R^{m\times n}$ 。

利用維數相容原則解上例：

step1：把所有參數當做實數來求導， $J=(Xw-y)^2$ ，

依據鏈式法則有 $\frac{\partial J}{\partial X}=2(Xw-y)w$ ， $\frac{\partial J}{\partial w}=2(Xw-y)X$ ， $\frac{\partial J}{\partial y}=-2(Xw-y)$

可以看出除了 $\frac{\partial J}{\partial y}=-2(Xw-y)$ ， $\frac{\partial J}{\partial X}$ 和 $\frac{\partial J}{\partial w}$ 的求導結果在維數上連矩陣乘法都不能滿足。

step2：根據step1的求導結果，依據維數相容原則做調整：前后換序、轉置

依據維數相容原則 $\frac{\partial J}{\partial X} \in R^{m \times n}$ ，但 $\frac{\partial J}{\partial X} \in R^{m \times n} = 2(Xw-y)w$ 中 $(Xw-y)\in R^{m \times 1}$ 、 $w \in R^{n \times 1}$ ，自然得調整為 $\frac{\partial J}{\partial X}=2(Xw-y)w^T$ ；

同理： $\frac{\partial J}{\partial w} \in R^{n \times 1}$ ，但 $\frac{\partial J}{\partial w} \in R^{n \times 1} = 2(Xw-y)X$ 中 $(Xw-y) \in R^{m \times 1}$ 、 $X \in R^{m \times n}$ ，那么通過換序、轉置我們可以得到維數相容的結果 $2X^T(Xw-y)$ 。

對於矩陣、向量求導：

“當做一維實數使用鏈式法則求導，然后做維數相容調整，使之符合矩陣乘法原則且維數相容”是快速准確的策略；
“對單個元素求導、再整理成矩陣形式”這種方式整理是困難的、過程是緩慢的，結果是易出錯的（不信你試試）。

如何證明經過維數相容原則調整后的結果是正確的呢？直覺！簡單就是美...

快速反向傳播

神經網絡的反向傳播求得“各層”參數 $W$ 和 $b$ 的導數，使用梯度下降（一階GD、SGD，二階LBFGS、共軛梯度等）優化目標函數。

接下來，展示不使用下標的記法（ $W_{ij}$ , $b_i$ or $b_j$ ）直接對 $W$ 和 $b$ 求導，反向傳播是鏈式法則和維數相容原則的完美體現，對每一層參數的求導利用上一層的中間結果完成。

這里的標號，參考UFLDL教程 - Ufldl

前向傳播：

$z^{(l+1)}=W^{(l)}a^{(l)}+b^{(l)}$ （公式1）

$a^{(l+1)} =f(z^{(l+1)})$ （公式2）

$z^{(l)}$ 為第 $l$ 層的中間結果， $a^{(l)}$ 為第 $l$ 層的激活值，其中第 $l+1$ 層包含元素：輸入 $a^{(l)}$ ，參數 $W^{(l)}$ 、 $b^{(l)}$ ，激活函數 $f()$ ，中間結果 $z^{(l+1)}$ ，輸出 $a^{(l+1)}$ 。

設神經網絡的損失函數為 $J(W,b) \in R^1$ （這里不給出具體公式，可以是交叉熵、MSE等），根據鏈式法則有：

$\bigtriangledown_{W^{(l)}}J(W,b)=\frac{\partial J(W,b)}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial W^{(l)}}=\delta ^{(l+1)}(a ^{(l)})^T$ $\bigtriangledown_{b^{(l)}}J(W,b)=\frac{\partial J(W,b)}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial b^{(l)}}=\delta ^{(l+1)}$

這里記 $\frac{\partial J(W,b)}{\partial z^{(l+1)}}=\delta ^{(l+1)}$ ，其中 $\frac{\partial z^{(l+1)}}{\partial W^{(l)}}=a ^{(l)}$ 、 $\frac{\partial z^{(l+1)}}{\partial b^{(l)}}= 1$ 可由公式1 得出， $a ^{(l)}$ 加轉置符號 $(a ^{(l)})^{T}$ 是根據維數相容原則作出的調整。

如何求 $\delta ^{(l)}=\frac{\partial J(W,b)}{\partial z^{(l)}}$ ？可使用如下遞推（需根據維數相容原則作出調整）：

$\delta ^{(l)}=\frac{\partial J}{\partial z^{(l)}}=\frac{\partial J}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial a^{(l)}} \frac{\partial a^{(l)}}{\partial z^{(l)}}= ((W^{(l)})^{T}\delta ^{(l+1)}) \cdot f'(z^{(l)})$

其中 $\frac{\partial J}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial a^{(l)}} = (W^{(l)})^T \delta ^{(l+1)}$ 、 $\frac{\partial a^{(l)}}{\partial z^{(l)}} = f'(z^{(l)})$ 。

那么我們可以從最頂層逐層往下，便可以遞推求得每一層的 $\delta ^{(l)} = \frac{\partial J(W,b)}{\partial z^{(l)}}$

注意： $\frac{\partial a^{(l)}}{\partial z^{(l)}} = f'(z^{(l)})$ 是逐維求導，在公式中是點乘的形式。

反向傳播整個流程如下：

1) 進行前向傳播計算，利用前向傳播公式，得到隱藏層和輸出層的激活值。

2) 對輸出層(第 $l$ 層)，計算殘差：

$\delta ^{(l)} =\frac{\partial J(W,b)}{\partial z^{(l)}}$ （不同損失函數，結果不同，這里不給出具體形式）

3) 對於 $l-1, l-2 , ... , 2$ 的隱藏層，計算：

$\delta ^{(l)}=\frac{\partial J}{\partial z^{(l)}}=\frac{\partial J}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial a^{(l)}}\frac{\partial a^{(l)}}{\partial z^{(l)}}= ((W^{(l)})^{T}\delta ^{(l+1)}) \cdot f'(z^{(l)})$

4) 計算各層參數 $W^{(l)}$ 、 $b^{(l)}$ 偏導數：

$\bigtriangledown_{W^{(l)}}J(W,b)=\frac{\partial J(W,b)}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial W^{(l)}}=\delta ^{(l+1)}(a ^{(l)})^T$
$\bigtriangledown_{b^{(l)}}J(W,b)=\frac{\partial J(W,b)}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial b^{(l)}}=\delta ^{(l+1)}$

編程實現

大部分開源library（如：caffe，Kaldi/src/{nnet1,nnet2}）的實現通常把 $W^{(l)}$ 、 $b^{(l)}$ 作為一個layer，激活函數 $f()$ 作為一個layer（如：sigmoid、relu、softplus、softmax）。

反向傳播時分清楚該層的輸入、輸出即能正確編程實現,如：

$z^{(l+1)}=W^{(l)}a^{(l)}+b^{(l)}$ (公式1)

$a^{(l+1)} =f(z^{(l+1)})$ (公式2)

(1)式AffineTransform/FullConnected層，以下是偽代碼：

注: out_diff = $\frac{\partial J}{\partial z^{(l+1)}}$ 是上一層（Softmax 或 Sigmoid/ReLU的 in_diff）已經求得：

$in\_diff = \frac{\partial J}{\partial a^{(l)}} = \frac{\partial J}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial a^{(l)}} = W^T * out\_diff$ （公式 1-1）

$W\_diff =\frac{\partial J}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial W^{(l)}} = out\_diff * in^T$ （公式 1-2）

$b\_diff =\frac{\partial J}{\partial z^{(l+1)}} \frac{\partial z^{(l+1)}}{\partial b^{(l)}} = out\_diff * 1$ （公式 1-3）

(2)式激活函數層（以Sigmoid為例）

注：out_diff = $\frac{\partial J}{\partial a^{(l+1)}}$ 是上一層AffineTransform的in_diff，已經求得,

$in\_diff = \frac{\partial J}{\partial z^{(l+1)}} = \frac{\partial J}{\partial a^{(l+1)}} \frac{\partial a^{(l+1)}}{\partial z^{(l+1)}} = out\_diff \cdot out \cdot (1-out)$

在實際編程實現時，in、out可能是矩陣(通常以一行存儲一個輸入向量，矩陣的行數就是batch_size)，那么上面的C++代碼就要做出變化（改變前后順序、轉置，把函數參數的Vector換成Matrix，此時Matrix out_diff 每一行就要存儲對應一個Vector的diff，在update的時候要做這個batch的加和，這個加和可以通過矩陣相乘out_diff*input（適當的轉置）得到。

如果熟悉SVD分解的過程，通過SVD逆過程就可以輕松理解這種通過乘積來做加和的技巧。

丟掉那些下標記法吧！

卷積層求導

卷積怎么求導呢？實際上卷積可以通過矩陣乘法來實現（是否旋轉無所謂的，對稱處理，caffe里面是不是有image2col），當然也可以使用FFT在頻率域做加法。

那么既然通過矩陣乘法，維數相容原則仍然可以運用，CNN求導比DNN復雜一些，要做些累加的操作。具體怎么做還要看編程時選擇怎樣的策略、數據結構。

快速矩陣、向量求導之維數相容大法已成。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 神經網絡反向傳播梯度計算數學原理神經網絡前向傳播與反向傳播使用反向傳播訓練多層神經網絡的原理神經網絡反向傳播時的梯度到底怎么求？（轉）卷積神經網絡中的反向傳播神經網絡與誤差反向傳播反向傳播神經網絡（BP）神經網絡之反向傳播算法實現神經網絡的正向和反向傳播神經網絡(二)：反向傳播步驟(BP)