强化学习-价值迭代
1. 前言 在策略迭代最后我们发现策略迭代的收敛过程比较慢,那我们就会想有没更好更快的迭代方法,今天我们介绍的价值迭代就是另一种寻找最优策略的解决方案。 2. 动态规划 价值迭代需要用到动态规划 ...
1. 前言 在策略迭代最后我们发现策略迭代的收敛过程比较慢,那我们就会想有没更好更快的迭代方法,今天我们介绍的价值迭代就是另一种寻找最优策略的解决方案。 2. 动态规划 价值迭代需要用到动态规划 ...
1. 前言 上一篇博客我们介绍了价值迭代的原理。这一节我们实现强化学习里面的价值迭代的部分代码(完整代码GitHub)。 2. 价值迭代回顾 我们把注意点放在值函数上,等值函数收敛了,我们的策略 ...