傳統的RNN在訓練long-term dependencies 的時候會遇到很多困難,最常見的便是vanish gradient problen。期間有很多種解決這個問題的方法被發表。大致可以分為兩類:一類是以新的方法改善或者代替傳統的SGD方法,如Bengio提出的clip gradient;另一種則是設計更加精密的recurrent unit,如LSTM,GRU。而本文的重點是比較LSTM,GRU的performance。由於在machine translation上這兩種unit的performance已經得到驗證(效果差別不明顯,performance差別不大)
1) LSTM:
2)GRU:
3)LSTM
5)Hierarchical RNN
4)BRNN