【强化学习】值迭代和策略迭代

在强化学习中我们经常会遇到策略迭代与值迭代，但是很多人都搞不清楚他们两个之间的区别，他们其实都是强化学习中的动态规划方法（DP）。 ——《Reinforcement Learning:An Introduction》

（一）值迭代

对每一个当前状态 s ,对每个可能的动作 a 都计算一下采取这个动作后到达的下一个状态的期望价值。看看哪个动作可以到达的状态的期望价值函数最大，就将这个最大的期望价值函数作为当前状态的价值函数 V(s) ，循环执行这个步骤，直到价值函数收敛。

400

从一个初始化的策略出发，先进行策略评估，然后改进策略，评估改进的策略，再进一步改进策略，经过不断迭代更新，直达策略收敛，这种算法被称为“策略迭代”

References:

[1] 【强化学习】值迭代与策略迭代

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 深度强化学习方法策略迭代 & 值迭代强化学习-策略迭代强化学习-价值迭代强化学习入门之智能走迷宫-策略迭代算法强化学习-策略迭代代码实现强化学习入门之智能走迷宫-价值迭代算法强化学习-价值迭代代码实现基于值函数的强化学习小例子（策略退化）强化学习（九）：策略梯度强化学习（五）—— 策略梯度及reinforce算法