原文:增强学习(五)----- 时间差分学习(Q learning, Sarsa learning)

接下来我们回顾一下动态规划算法 DP 和蒙特卡罗方法 MC 的特点,对于动态规划算法有如下特性: 需要环境模型,即状态转移概率 P sa 状态值函数的估计是自举的 bootstrapping ,即当前状态值函数的更新依赖于已知的其他状态值函数。 相对的,蒙特卡罗方法的特点则有: 可以从经验中学习不需要环境模型 状态值函数的估计是相互独立的 只能用于episode tasks 而我们希望的算法是这样 ...

2016-01-09 14:22 3 44243 推荐指数:

查看详情

增强学习 | Q-Learning

归为基于策略的增强学习方法。 此外,增强学习方法还有基于价值以及基于模型两类主要方法。本文介绍第二类,先从 ...

Sat Jul 08 06:32:00 CST 2017 0 1144
强化学习 - Q-learning Sarsa 和 DQN 的理解

本文用于基本入门理解。 强化学习的基本理论 : R, S, A 这些就不说了。 先设想两个场景: 一。 1个 5x5 的 格子图, 里面有一个目标点, 2个死亡点二。 一个迷宫, 一个出发点, 3处 分叉点, 5个死角, 1条活路Q-learning 的概念 其实就是一个算法 ...

Mon Oct 30 19:32:00 CST 2017 1 4237
强化学习 5 —— SARSAQ-Learning算法代码实现

上篇文章 强化学习——时序 (TD) --- SARSA and Q-Learning 我们介绍了时序TD算法解决强化学习的评估和控制问题,TD对比MC有很多优势,比如TD有更低方差,可以学习不完整的序列。所以我们可以在策略控制循环中使用TD来代替MC。优于TD算法的诸多优点,因此现在主流 ...

Mon Aug 10 23:34:00 CST 2020 1 914
Q-learningSarsa的区别

Q-learning是off-policy,而Sarsa是on-policy学习Q-learning在更新Q table时,它只会需要Q值最大,但是不一定会选择使这个Q值最大的动作,因为选择哪个动作是由其他的策略决定的,但是Sarsa在更新Q table时,不一定是Q最大的那个,而且接下 ...

Thu Aug 15 00:56:00 CST 2019 0 524
强化学习中的无模型 基于值函数的 Q-LearningSarsa 学习

强化学习基础: 注: 在强化学习中 奖励函数和状态转移函数都是未知的,之所以有已知模型的强化学习解法是指使用采样估计的方式估计出奖励函数和状态转移函数,然后将强化学习问题转换为可以使用动态规划求解的已知模型问题。 强化学习问题由于采用了MDP ...

Thu Mar 07 06:11:00 CST 2019 0 1310
增强学习Q-learning分析与演示(入门)

这篇写的是不太对的,详细还是找个靠谱的吧! 一些说明、参阅 https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents ...

Sat Sep 14 04:32:00 CST 2019 0 1617
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM