在簡單RNN的前向傳播過程中，輸入的數據循環地與隱藏層里的權重W（都是很小的數）做乘法運算，那么損失函數對較長時間步前的W的梯度就會很小（因為W會累乘，激活函數大多也是小數），詳細內容見【深度學習面試題35：RNN梯度消失問題(vanishing gradient)】。

LSTM如何解決梯度消失

在【深度學習面試題35：RNN梯度消失問題(vanishing gradient)】中有一個結論，即簡單RNN越早的時間步梯度消失的問題越嚴重；而這一現象在LSTM不太會發生（注意這里的用詞，是不太會）。下面來分析原理。

遺忘門對梯度消失的影響

遺忘門的初始化技巧

參考資料

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深度學習面試題08：梯度消失與梯度爆炸 LSTM如何解決梯度消失問題深度學習面試題35：RNN梯度消失問題(vanishing gradient) RNN梯度消失和爆炸的原因以及 LSTM如何解決梯度消失問題 LSTM如何解決梯度消失或爆炸的？深度學習面試題33：RNN的梯度更新(BPTT) 深度學習面試題02：標准梯度下降法深度學習面試題30：卷積的梯度反向傳播深度學習梯度消失或爆炸問題深度學習面試題04：隨機梯度下降法、批量梯度下降法、小批量梯度下降