[強化學習論文筆記(3)]:DRQN

本文轉載自查看原文 2019-12-31 17:09 856 DQN/ 強化學習論文閱讀/ 強化學習/ 論文

Deep Recurrent Q-Learning for Partially Observable MDPs

DQN 每一個decision time 需要該時刻前４個frame 來獲得完整的狀態信息。但是有的游戲四張圖片也不能獲取完整的狀態信息。所以這篇論文就希望使用LSTM來記錄狀態信息。改動如下圖，把第一個全連接層變成了LSTM 層。

實驗結果證明對於POMDP DRQN 能有更好的效果，而且輸入狀態更小。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [強化學習論文筆記(2)]:DoubleDQN [強化學習論文筆記(7)]:DPG 深度強化學習方向論文整理【基於模型的強化學習】論文閱讀【KDD2018論文】基於強化學習技術的智能派單模型閱讀筆記《強化學習導論》讀書筆記 [強化學習論文閱讀(9)]:soft Q-learning 強化學習總結強化學習——入門強化學習（MATLAB）