Deep Recurrent Q-Learning for Partially Observable MDPs
論文地址
筆記
DQN 每一個decision time 需要該時刻前4個frame 來獲得完整的狀態信息。但是有的游戲四張圖片也不能獲取完整的狀態信息。所以這篇論文就希望使用LSTM來記錄狀態信息。改動如下圖,把第一個全連接層變成了LSTM 層。
實驗結果證明對於POMDP DRQN 能有更好的效果,而且輸入狀態更小。
- Bootstrapped Sequential Updates
每個batch 是一個完整的episode - Bootstrapped Random Updates
從episode中間隨機采樣