神經網絡訓練中的梯度消失與梯度爆炸

本文轉載自查看原文 2019-06-22 22:22 964 深度學習和tf&pytorch

層數比較多的神經網絡模型在訓練時也是會出現一些問題的，其中就包括梯度消失問題（gradient vanishing problem）和梯度爆炸問題（gradient exploding problem）。梯度消失問題和梯度爆炸問題一般隨着網絡層數的增加會變得越來越明顯。

例如，對於下圖所示的含有3個隱藏層的神經網絡，梯度消失問題發生時，接近於輸出層的hidden layer 3等的權值更新相對正常，但前面的hidden layer 1的權值更新會變得很慢，導致前面的層權值幾乎不變，仍接近於初始化的權值，這就導致hidden layer 1相當於只是一個映射層，對所有的輸入做了一個同一映射，這是此深層網絡的學習就等價於只有后幾層的淺層網絡的學習了。

而這種問題為何會產生呢？以下圖的反向傳播為例（假設每一層只有一個神經元且對於每一層 $y_i=\sigma\left(z_i\right)=\sigma\left(w_ix_i+b_i\right)$ ，其中 $\sigma$ 為sigmoid函數）

可以推導出

$\begin{align} &\frac{\partial C}{\partial b_1}=\frac{\partial C}{\partial y_4}\frac{\partial y_4}{\partial z_4}\frac{\partial z_4}{\partial x_4}\frac{\partial x_4}{\partial z_3}\frac{\partial z_3}{\partial x_3}\frac{\partial x_3}{\partial z_2}\frac{\partial z_2}{\partial x_2}\frac{\partial x_2}{\partial z_1}\frac{\partial z_1}{\partial b_1}\\ &=\frac{\partial C}{\partial y_4}\sigma'\left(z_4\right)w_4\sigma'\left(z_3\right)w_3\sigma'\left(z_2\right)w_2\sigma'\left(z_1\right) \end{align}$

而sigmoid的導數 $\sigma'\left(x\right)$ 如下圖

可見， $\sigma'\left(x\right)$ 的最大值為 $\frac{1}{4}$ ，而我們初始化的網絡權值 $|w|$ 通常都小於1，因此 $|\sigma'\left(z\right)w|\leq\frac{1}{4}$ ，因此對於上面的鏈式求導，層數越多，求導結果 $\frac{\partial C}{\partial b_1}$ 越小，因而導致梯度消失的情況出現。這樣，梯度爆炸問題的出現原因就顯而易見了，即 $|\sigma'\left(z\right)w|>1$ ，也就是 $w$ 比較大的情況。但對於使用sigmoid激活函數來說，這種情況比較少。因為 $\sigma'\left(z\right)$ 的大小也與 $w$ 有關（ $z=wx+b$ ），除非該層的輸入值 $x$ 在一直一個比較小的范圍內。

其實梯度爆炸和梯度消失問題都是因為網絡太深，網絡權值更新不穩定造成的，本質上是因為梯度反向傳播中的連乘效應。對於更普遍的梯度消失問題，可以考慮用ReLU激活函數取代sigmoid激活函數。另外，LSTM的結構設計也可以改善RNN中的梯度消失問題。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 循環神經網絡梯度消失/梯度爆炸問題神經網絡中的梯度消失神經網絡梯度消失和梯度爆炸及解決辦法 RNN神經網絡產生梯度消失和梯度爆炸的原因及解決方案神經網絡優化算法：Dropout、梯度消失/爆炸、Adam優化算法，一篇就夠了！機器學習 —— 基礎整理（八）循環神經網絡的BPTT算法步驟整理；梯度消失與梯度爆炸神經網絡的激活函數及梯度消失神經網絡與深度學習（5）：梯度消失問題詳解梯度爆炸和梯度消失【神經網絡和深度學習】筆記 - 第五章深度神經網絡學習過程中的梯度消失問題