原文:文献笔记:Policy Gradient Methods for Reinforcement Learning with Function Approximation

本篇论文讨论了策略梯度方法的函数逼近问题。首先明确策略梯度的目标函数:最大化策略 pi 下的累计回报 rho pi rho pi E left sum t infty gamma t r t s , pi right 上式是初始状态为 s 的累计回报表达式,事实上,还可以利用策略生成的平稳状态分布 d pi s 对 rho pi 进行加权: rho pi lim n rightarrow inft ...

2019-04-07 08:12 0 912 推荐指数:

查看详情

[Reinforcement Learning] Policy Gradient Methods

上一篇博文的内容整理了我们如何去近似价值函数或者是动作价值函数的方法: \[V_{\theta}(s)\approx V^{\pi}(s) \\ Q_{\theta}(s)\approx Q^ ...

Fri Nov 02 17:52:00 CST 2018 1 3677
[Reinforcement Learning] Value Function Approximation

为什么需要值函数近似? 之前我们提到过各种计算值函数的方法,比如对于 MDP 已知的问题可以使用 Bellman 期望方程求得值函数;对于 MDP 未知的情况,可以通过 MC 以及 TD 方法来获得 ...

Thu Nov 01 17:46:00 CST 2018 0 1123
文献笔记:Deterministic Policy Gradient Algorithms

为什么需要引入决定性策略梯度? 决定性策略梯度算法对于策略函数的更新形式比较简单,就是action-value函数的期望,这种简单的形式能够在估计policy时变得更有效。 作为随机策略,在相同的策略,在同一个状态处,采用的动作是基于一个概率分布的,即是不确定的。而确定性策略则决定简单 ...

Thu Apr 25 07:40:00 CST 2019 0 1166
论文笔记之:Asynchronous Methods for Deep Reinforcement Learning

   Asynchronous Methods for Deep Reinforcement Learning ICML 2016   深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很多共同的 idea:一个 online 的 agent 碰到的观察到的数据 ...

Mon Jul 18 23:43:00 CST 2016 0 5518
强化学习七 - Policy Gradient Methods

一.前言   之前我们讨论的所有问题都是先学习action value,再根据action value 来选择action(无论是根据greedy policy选择使得action value 最大的action,还是根据ε-greedy policy以1-ε的概率选择使得action ...

Sat Nov 17 22:16:00 CST 2018 0 1068
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM