[强化学习论文笔记(3)]:DRQN

本文转载自查看原文 2019-12-31 17:09 856 DQN/ 强化学习论文阅读/ 强化学习/ 论文

Deep Recurrent Q-Learning for Partially Observable MDPs

DQN 每一个decision time 需要该时刻前４个frame 来获得完整的状态信息。但是有的游戏四张图片也不能获取完整的状态信息。所以这篇论文就希望使用LSTM来记录状态信息。改动如下图，把第一个全连接层变成了LSTM 层。

实验结果证明对于POMDP DRQN 能有更好的效果，而且输入状态更小。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 [强化学习论文笔记(2)]:DoubleDQN [强化学习论文笔记(7)]:DPG [强化学习论文笔记(4)]:DuelingDQN [强化学习论文笔记(1)]:DQN 深度强化学习方向论文整理【基于模型的强化学习】论文阅读读强化学习论文之MADDPG 【KDD2018论文】基于强化学习技术的智能派单模型阅读笔记《强化学习导论》读书笔记 [强化学习论文阅读(9)]:soft Q-learning