【文章推荐】总结:比较SARSA、SARSA(lambda)、Q-learning、on policy and off policy

原文：总结:比较SARSA、SARSA(lambda)、Q-learning、on policy and off policy

前几天面试的时候被问到RL一些基础算法的区别，回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题，可以采用两个策略训练模型，一个策略为行为策略，用于保持探索性，提供多样化的数据，不断优化另一个策略目标策略。 on policy的目标策略与行为策略是一个策略，在优化时，两个策略同时被优化。而off policy的目标策略与行为策略 ...

2019-05-13 13:35 0 455 推荐指数：

查看详情

Q-learning和Sarsa的区别

Q-learning是off-policy，而Sarsa是on-policy学习。 Q-learning在更新Q table时，它只会需要Q值最大，但是不一定会选择使这个Q值最大的动作，因为选择哪个动作是由其他的策略决定的，但是Sarsa在更新Q table时，不一定是Q最大的那个，而且接下 ...

强化学习（三）—— 时序差分法（SARSA和Q-Learning）

1、时序差分法基本概念　　虽然蒙特卡洛方法可以在不知道状态转移概率矩阵的前提下，灵活地求解强化学习问题，但是蒙特卡洛方法需要所有的采样序列都是完整的状态序列。如果我们没有完整的状态序列就无法用蒙特 ...

强化学习 - Q-learning Sarsa 和 DQN 的理解

本文用于基本入门理解。强化学习的基本理论： R, S, A 这些就不说了。先设想两个场景：一。 1个 5x5 的格子图，里面有一个目标点， 2个死亡点二。一个迷宫，一个出发点， 3处分叉点， 5个死角， 1条活路Q-learning 的概念其实就是一个算法 ...

强化学习 5 —— SARSA 和 Q-Learning算法代码实现

上篇文章强化学习——时序差分 (TD) --- SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题，TD对比MC有很多优势，比如TD有更低方差，可以学习不完整的序列。所以我们可以在策略控制循环中使用TD来代替MC。优于TD算法的诸多优点，因此现在主流 ...

【强化学习RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等

矩阵Pss'），如何进行prediction，即预测当前policy的state-value funct ...

强化学习中的无模型基于值函数的 Q-Learning 和 Sarsa 学习

强化学习基础：注：在强化学习中奖励函数和状态转移函数都是未知的，之所以有已知模型的强化学习解法是指使用采样估计的方式估计出奖励函数和状态转移函数，然后将强化学 ...

增强学习（五）----- 时间差分学习(Q learning, Sarsa learning)

接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：需要环境模型，即状态转移概率\(P_{sa}\) 状态值函数的估计是自举的(bootstr ...

强化学习-SARSA(lambda)路径规划

1. 问题：612个点 [(x,y,z), 标号1，标号2] 约束：整体水平垂直 2. State: {w_ij} ...

原文：总结:比较SARSA、SARSA(lambda)、Q-learning、on policy and off policy

相关推荐

相关标签