原文:Q-learning和Sarsa的区别

Q learning是off policy,而Sarsa是on policy学习。 Q learning在更新Q table时,它只会需要Q值最大,但是不一定会选择使这个Q值最大的动作,因为选择哪个动作是由其他的策略决定的,但是Sarsa在更新Q table时,不一定是Q最大的那个,而且接下来会选择此Q对应的action。Q learning属于勇敢型,无论前方的路上有什么危险,它都会直接走过去, ...

2019-08-14 16:56 0 524 推荐指数:

查看详情

强化学习(三)—— 时序差分法(SARSAQ-Learning

1、时序差分法基本概念   虽然蒙特卡洛方法可以在不知道状态转移概率矩阵的前提下,灵活地求解强化学习问题,但是蒙特卡洛方法需要所有的采样序列都是完整的状态序列。如果我们没有完整的状态序列就无法用蒙特 ...

Fri Nov 16 01:03:00 CST 2018 0 1713
强化学习 - Q-learning Sarsa 和 DQN 的理解

本文用于基本入门理解。 强化学习的基本理论 : R, S, A 这些就不说了。 先设想两个场景: 一。 1个 5x5 的 格子图, 里面有一个目标点, 2个死亡点二。 一个迷宫, 一个出发点, 3处 分叉点, 5个死角, 1条活路Q-learning 的概念 其实就是一个算法 ...

Mon Oct 30 19:32:00 CST 2017 1 4237
强化学习 5 —— SARSAQ-Learning算法代码实现

上篇文章 强化学习——时序差分 (TD) --- SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题,TD对比MC有很多优势,比如TD有更低方差,可以学习不完整的序列。所以我们可以在策略控制循环中使用TD来代替MC。优于TD算法的诸多优点,因此现在主流 ...

Mon Aug 10 23:34:00 CST 2020 1 914
总结:比较SARSASARSA(lambda)、Q-learning、on policy and off policy

前几天面试的时候被问到RL一些基础算法的区别,回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题,可以采用两个策略训练模型,一个策略为行为策略,用于保持探索性,提供多样化的数据,不断优化另一个策略(目标策略 ...

Mon May 13 21:35:00 CST 2019 0 455
Q-learning

强化学习基本介绍 强化学习是一种不同于监督学习和无监督学习的在线学习技术,基本模型图一所示。它把学习看作是一个“试探一评价”的过程,首先学习系统称为智能体感知环境状态,采取某一个动作作用于环境,环境 ...

Tue Jan 02 06:33:00 CST 2018 0 8939
Q-learning算法介绍(2)

前面我们介绍了Q-learning算法的原理,现在我们就一步一步地用实际数值演示一下,给大家一个更直观的认识。 首先我们选择Gamma值的初值为0.8,agent的初始位置是房间1,前面显示的R矩阵不变,Q矩阵所有值都被初始化为0。 由于起始位置是房间1,所以我们先看R矩阵的第二行 ...

Sat Apr 25 11:18:00 CST 2020 0 872
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM