【文章推荐】强化学习经典入门书的读书笔记系列--第二篇（上）

原文：强化学习经典入门书的读书笔记系列--第二篇（上）

正文区分强化学习和其他种类的学习方式最显著的特点是：在强化学习中，训练信息被用于评估动作的好坏，而不是用于指导到底该是什么动作。这也是为何需要主动去做exploration的原因。纯粹的评估性反馈可以表明一个动作的好坏但并不能知道当前动作是否是最佳选择或者是最差选择。评估性反馈包括evoluationary method 是方程优化的基础。相对的，纯粹的指导性反馈，表明了当前的最优动作，这个 ...

2017-04-25 16:10 0 1254 推荐指数：

查看详情

《强化学习导论》读书笔记

目录 Chapter1 Chapter2 Learning- Evaluative feedback vs Instructive feedback ...

强化学习读书笔记 - 04 - 动态规划

强化学习读书笔记 - 04 - 动态规划学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 数学符号看不懂的，先看看这里： 强化学习 ...

强化学习读书笔记 - 14 - 心理学

强化学习读书笔记 - 14 - 心理学学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement ...

强化学习读书笔记 - 01 - 强化学习的问题

强化学习读书笔记 - 01 - 强化学习的问题 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 什么是强化学习(Reinforcement ...

强化学习读书笔记 - 08 - 规划式方法和学习式方法

强化学习读书笔记 - 08 - 规划式方法和学习式方法学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 需要了解强化学习的数学符号 ...

强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)

强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning) 学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014 ...

强化学习读书笔记 - 09 - on-policy预测的近似方法

强化学习读书笔记 - 09 - on-policy预测的近似方法参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习读书笔记 ...

强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces)

强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces) 学习笔记： Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 ...

原文：强化学习经典入门书的读书笔记系列--第二篇（上）

相关推荐

相关标签