思想:当前状态的价值和下一步的价值和当前的奖励有关。价值函数分解为当前奖励和下一步价值函数两部分,类似于递归的思想
例如在上面这个图中。vπ(s)是状态s的价值函数。π(a|s)是状态s下执行行为a的概率,Rsa是对应的即时奖励,是在状态S下执行了动作a之后转移到状态S′的概率。
上面这个图就是实际计算过程,计算的是最右边这个状态的价值。往上走study动作为a3,往下走为a4
思想:当前状态的价值和下一步的价值和当前的奖励有关。价值函数分解为当前奖励和下一步价值函数两部分,类似于递归的思想
例如在上面这个图中。vπ(s)是状态s的价值函数。π(a|s)是状态s下执行行为a的概率,Rsa是对应的即时奖励,是在状态S下执行了动作a之后转移到状态S′的概率。
上面这个图就是实际计算过程,计算的是最右边这个状态的价值。往上走study动作为a3,往下走为a4
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。