本文转载自查看原文 2021-10-07 17:38 110

GAE

abstract

策略梯度算法可以直接优化累计奖励，并且可以直接用于神经网络等非线性函数逼近器。但是存在两个挑战：

而在本章中，使用价值函数，通过类似于 $的优势函数的指数加权估计值，来答复减少策略梯度估计值的偏差。通过对策略和值函数使用置信域的方法来解决第二个问题。$

强化学习中的典型问题是使策略的期望总回报最大化，但是其中难度的一个关键来源使动作和产生的影响之间的长时间延迟。这个问题被称为the credit assignment problem。

但现在我们可以使用值函数的方式来估计延迟的奖励。

本文的主要贡献为：

策略梯度可以有以下的几种表达方式：

并给出如下的定义：

可以发现在， $使用A时，可以使策略梯度的方差最小。$

通过引入折扣回报，上述的三个定义将修改为：

策略梯度也会修改为：

并给出定义 $近似，即对进行近似替代后，不会产生偏差。$

定义一个估计 $为近似，需要：$

此时 $有以下的性质：$

其中一个 $是的充分条件是可以分解为两个函数和的形式，其中可以依赖于任何轨迹，但是是需要是上诉定义的Q函数的无偏估计，需要是在采样之前的状态和动作的任何函数。$

一些常见的 $近似如：$

在本节中，是为了找到对 $的一个准确的估计，并用来构建策略梯度的近似估计：$

在定义TD-error后， $,可以将考虑为动作的优势估计：$

由于 $也是拥有时间的区分的，因此也可以对不同时间的步数进行区分，即可以产生如下定义：$

我们看到， $即一个k步的折扣回报和减去一个基线函数，当使，可以得到：$

，那么此时我们就可以得到广义优势函数(GAE)的定义了：

并且对于 $,这两种情况，GAE有特殊的表达$

对于GAE来说有两个独立的参数 $，这两个方差都有助于减少方差和偏差，但是它们有不同的用途，并且取得最好效果的时候值也不同。$

使用GAE，我们可以构造 $的无偏估计：$

Reward shaping是将回报函数进行转换：

把么我们可以得到一个轨迹的折扣回报为：

并且通过下式我们可以发现， $是没有产生变化的：$

并且如果 $.那么状态值函数为0.$

那么令 $，并且为了防止远距离奖励带来的噪声，因此加上一个更快的衰减，就得到了前面定义的GAE：$

如果使用动作值函数进行模拟，那么在函数的输入中还应该包括动作，那么与状态值相比，使用动作值函数过于复杂了。这样会带来更大的偏差。

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 深度强化学习——ppo(待重写) 深度强化学习——TRPO 深度学习和强化学习的关系深度强化学习方向论文整理深度强化学习——最大熵强化学习入门深度学习之强化学习Q-Learning 是否要入坑“深度强化学习”，看了这篇论文再说！深度强化学习资料（视频+PPT+PDF下载） zt:跟着阿尔法狗理解深度强化学习框架 Proximal Policy Optimization Algorithm (PPO) 【深度强化学习】