傳統的RNN在訓練long-term dependencies 的時候會遇到很多困難,最常見的便是vanish gradient problen。期間有很多種解決這個問題的方法被發表。大致可以分為兩類:一類是以新的方法改善或者代替傳統的SGD方法,如Bengio提出的clip gradient;另一種則是設計更加精密的recurrent unit,如LSTM,GRU。而本文的重點是比較LSTM,GRU的performance。由於在machine translation上這兩種unit的performance已經得到驗證(效果差別不明顯,performance差別不大)

1) LSTM:

2)GRU:

3)LSTM



5)Hierarchical RNN

4)BRNN

