原文:强化学习(五)用时序差分法(TD)求解

在强化学习 四 用蒙特卡罗法 MC 求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求解强化学习问题的方法:时序差分 Temporal Difference, TD 。 时序差分这一篇对应S ...

2018-08-24 18:23 94 24571 推荐指数:

查看详情

强化学习 4 —— 时序分法TD)解决无模型预测与控制问题

在上篇文章强化学习——蒙特卡洛 (MC) 采样法的预测与控制中我们讨论了 Model Free 情况下的策略评估问题,主要介绍了蒙特卡洛(MC)采样法的预测与控制问题,这次我们介绍另外一种方法——时序分法TD) 一、时序分采样法(TD) 对于MC采样法,如果我们没有完整的状态序列 ...

Mon Aug 10 23:32:00 CST 2020 0 660
强化学习-时序分算法(TD)和SARAS法

1. 前言 我们前面介绍了第一个Model Free的模型蒙特卡洛算法。蒙特卡罗法在估计价值时使用了完整序列的长期回报。而且蒙特卡洛法有较大的方差,模型不是很稳定。本节我们介绍时序分法时序分法不需要完整的序列,并且利用Bellman公式和动态规划进行迭代。 2. 时序分和蒙特卡洛比较 ...

Sat Mar 09 18:50:00 CST 2019 0 1107
强化学习(七)时序分离线控制算法Q-Learning

    在强化学习(六)时序分在线控制算法SARSA中我们讨论了时序分的在线控制算法SARSA,而另一类时序分的离线控制算法还没有讨论,因此本文我们关注于时序分离线控制算法,主要是经典的Q-Learning算法。     Q-Learning这一篇对应Sutton书的第六章部分和UCL ...

Thu Sep 20 03:32:00 CST 2018 49 20011
强化学习(六)时序分在线控制算法SARSA

    在强化学习(五)用时序分法TD求解中,我们讨论了用时序分来求解强化学习预测问题的方法,但是对控制算法的求解过程没有深入,本文我们就对时序分的在线控制算法SARSA做详细的讨论。     SARSA这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部分。 1. ...

Mon Sep 10 03:30:00 CST 2018 34 19216
强化学习6-MC与TD的比较-实战

可以看到 随着学习率的增大,效果越来越好,当学习率为0.5时,已经明显过拟合了 这个是单步的,书上是单回合的,所以不同,后续有空会更新代码 随机行走有个特殊性:两个终点,有一个终点奖励为0,也就是说在前几个回合中,单步更新的TD如果一开始向左走,需要 ...

Tue Feb 19 01:26:00 CST 2019 0 564
强化学习(四)用蒙特卡罗法(MC)求解

    在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型$P$都无法知道 ...

Sat Aug 18 02:04:00 CST 2018 84 25999
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM