原文:强化学习 4 —— 时序差分法(TD)解决无模型预测与控制问题

在上篇文章强化学习 蒙特卡洛 MC 采样法的预测与控制中我们讨论了 Model Free 情况下的策略评估问题,主要介绍了蒙特卡洛 MC 采样法的预测与控制问题,这次我们介绍另外一种方法 时序差分法 TD 一 时序差分采样法 TD 对于MC采样法,如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。当获取不到完整状态序列时, 可以使用时序差分法 Temporal Difference, T ...

2020-08-10 15:32 0 660 推荐指数:

查看详情

强化学习-时序分算法(TD)和SARAS法

1. 前言 我们前面介绍了第一个Model Free的模型蒙特卡洛算法。蒙特卡罗法在估计价值时使用了完整序列的长期回报。而且蒙特卡洛法有较大的方差,模型不是很稳定。本节我们介绍时序分法时序分法不需要完整的序列,并且利用Bellman公式和动态规划进行迭代。 2. 时序分和蒙特卡洛比较 ...

Sat Mar 09 18:50:00 CST 2019 0 1107
强化学习(七)时序分离线控制算法Q-Learning

    在强化学习(六)时序分在线控制算法SARSA中我们讨论了时序分的在线控制算法SARSA,而另一类时序分的离线控制算法还没有讨论,因此本文我们关注于时序分离线控制算法,主要是经典的Q-Learning算法。     Q-Learning这一篇对应Sutton书的第六章部分和UCL ...

Thu Sep 20 03:32:00 CST 2018 49 20011
强化学习(六)时序分在线控制算法SARSA

    在强化学习(五)用时序分法TD)求解中,我们讨论了用时序分来求解强化学习预测问题的方法,但是对控制算法的求解过程没有深入,本文我们就对时序分的在线控制算法SARSA做详细的讨论。     SARSA这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部分。 1. ...

Mon Sep 10 03:30:00 CST 2018 34 19216
强化学习是如何解决问题的?

强化学习是如何解决问题的? 什么是强化学习算法呢,它离我们有多远?2016年和2017年最具影响力的AlphaGo大胜世界围棋冠军李世石和柯洁事件,其核心算法就用到了强化学习算法。相信很多人想了解或者转行研究强化学习算法或多或少都跟这两场赛事有联系。如今,强化学习继深度学习之后,成为学术界 ...

Mon Oct 01 09:02:00 CST 2018 0 1272
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM