LSTM、GRU、 BRNN、Hierarchical RNN

本文轉載自查看原文 2017-12-05 15:22 1421 機器學習

傳統的RNN在訓練long-term dependencies 的時候會遇到很多困難，最常見的便是vanish gradient problen。期間有很多種解決這個問題的方法被發表。大致可以分為兩類：一類是以新的方法改善或者代替傳統的SGD方法，如Bengio提出的clip gradient；另一種則是設計更加精密的recurrent unit，如LSTM，GRU。而本文的重點是比較LSTM，GRU的performance。由於在machine translation上這兩種unit的performance已經得到驗證（效果差別不明顯，performance差別不大）