标签【Q-Learning】 - 码上欢乐

强化学习Q-Learning算法详解

https://study.163.com/provider/400000000398149/index.htm?share=2&shareId=400000000398149（欢迎关注博 ...

Deep Q Network(DQN)原理解析

1. 前言在前面的章节中我们介绍了时序差分算法（TD）和Q-Learning，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q ...

强化学习-Q-Learning算法

1. 前言 Q-Learning算法也是时序差分算法的一种，和我们前面介绍的SARAS不同的是，SARSA算法遵从了交互序列，根据当前的真实行动进行价值估计；Q-Learning算法没有遵循交互序列 ...

上篇文章强化学习——时序差分 (TD) --- SARSA and Q-Learning 我们介绍了时序差分TD算法解决强化学习的评估和控制问题，TD对比MC有很多优势，比如TD有更低方差，可以学习 ...

在上篇文章强化学习——蒙特卡洛 (MC) 采样法的预测与控制中我们讨论了 Model Free 情况下的策略评估问题，主要介绍了蒙特卡洛（MC）采样法的预测与控制问题，这次我们介绍另外一种方法——时序 ...