[強化學習論文筆記(3)]:DRQN


Deep Recurrent Q-Learning for Partially Observable MDPs

論文地址

DRQN

筆記

DQN 每一個decision time 需要該時刻前4個frame 來獲得完整的狀態信息。但是有的游戲四張圖片也不能獲取完整的狀態信息。所以這篇論文就希望使用LSTM來記錄狀態信息。改動如下圖,把第一個全連接層變成了LSTM 層。

實驗結果證明對於POMDP DRQN 能有更好的效果,而且輸入狀態更小。

  • Bootstrapped Sequential Updates
    每個batch 是一個完整的episode
  • Bootstrapped Random Updates
    從episode中間隨機采樣


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM