相关内容简体繁体

强化学习读书笔记 - 11 - off-policy的近似方法

本文转载自查看原文 2017-03-12 00:04 1482 强化学习

强化学习读书笔记 - 11 - off-policy的近似方法

学习笔记：
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

参照

需要了解强化学习的数学符号，先看看这里：

强化学习读书笔记 - 00 - 术语和数学符号

off-policy的近似方法

尽管可以使用第6,7章的方法，修改成为off-policy的近似方法，但是效果不好。
主要原因是：行为策略的分布和目标策略的分布不一致。

off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向：

使用重要样本的方法，扭曲样本的分布成为目标策略的分布。这样就可以使用半梯度递减方法收敛。
开发一个真正的梯度递减方法，这个方法不依赖于任何分布。

原书这章还远远没有写完！
这章先停在这里了。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 《强化学习导论》读书笔记强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods) 强化学习读书笔记 - 03 - 有限马尔科夫决策过程强化学习读书笔记 - 00 - 术语和数学符号 Deep Learning专栏--强化学习之从 Policy Gradient 到 A3C（3） [强化学习论文笔记(3)]:DRQN [强化学习论文笔记(2)]:DoubleDQN [强化学习论文笔记(7)]:DPG 如何高效学习读书笔记

粤ICP备18138465号 © 2018-2026 CODEPRJ.COM