标签【价值迭代】

花费 5 ms

强化学习-价值迭代

1. 前言在策略迭代最后我们发现策略迭代的收敛过程比较慢，那我们就会想有没更好更快的迭代方法，今天我们介绍的价值迭代就是另一种寻找最优策略的解决方案。 2. 动态规划价值迭代需要用到动态规划 ...

强化学习-价值迭代代码实现

1. 前言上一篇博客我们介绍了价值迭代的原理。这一节我们实现强化学习里面的价值迭代的部分代码(完整代码GitHub)。 2. 价值迭代回顾我们把注意点放在值函数上，等值函数收敛了，我们的策略 ...