本文轉載自查看原文 2021-10-07 17:38 110

GAE

abstract

策略梯度算法可以直接優化累計獎勵，並且可以直接用於神經網絡等非線性函數逼近器。但是存在兩個挑戰：

而在本章中，使用價值函數，通過類似於 $的優勢函數的指數加權估計值，來答復減少策略梯度估計值的偏差。通過對策略和值函數使用置信域的方法來解決第二個問題。$

強化學習中的典型問題是使策略的期望總回報最大化，但是其中難度的一個關鍵來源使動作和產生的影響之間的長時間延遲。這個問題被稱為the credit assignment problem。

但現在我們可以使用值函數的方式來估計延遲的獎勵。

本文的主要貢獻為：

策略梯度可以有以下的幾種表達方式：

並給出如下的定義：

可以發現在， $使用A時，可以使策略梯度的方差最小。$

通過引入折扣回報，上述的三個定義將修改為：

策略梯度也會修改為：

並給出定義 $近似，即對進行近似替代后，不會產生偏差。$

定義一個估計 $為近似，需要：$

此時 $有以下的性質：$

其中一個 $是的充分條件是可以分解為兩個函數和的形式，其中可以依賴於任何軌跡，但是是需要是上訴定義的Q函數的無偏估計，需要是在采樣之前的狀態和動作的任何函數。$

一些常見的 $近似如：$

在本節中，是為了找到對 $的一個准確的估計，並用來構建策略梯度的近似估計：$

在定義TD-error后， $,可以將考慮為動作的優勢估計：$

由於 $也是擁有時間的區分的，因此也可以對不同時間的步數進行區分，即可以產生如下定義：$

我們看到， $即一個k步的折扣回報和減去一個基線函數，當使，可以得到：$

，那么此時我們就可以得到廣義優勢函數(GAE)的定義了：

並且對於 $,這兩種情況，GAE有特殊的表達$

對於GAE來說有兩個獨立的參數 $，這兩個方差都有助於減少方差和偏差，但是它們有不同的用途，並且取得最好效果的時候值也不同。$

使用GAE，我們可以構造 $的無偏估計：$

Reward shaping是將回報函數進行轉換：

把么我們可以得到一個軌跡的折扣回報為：

並且通過下式我們可以發現， $是沒有產生變化的：$

並且如果 $.那么狀態值函數為0.$

那么令 $，並且為了防止遠距離獎勵帶來的噪聲，因此加上一個更快的衰減，就得到了前面定義的GAE：$

如果使用動作值函數進行模擬，那么在函數的輸入中還應該包括動作，那么與狀態值相比，使用動作值函數過於復雜了。這樣會帶來更大的偏差。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 深度強化學習——ppo(待重寫) 深度強化學習——TRPO 深度學習和強化學習的關系深度強化學習方向論文整理深度強化學習——最大熵強化學習入門深度學習之強化學習Q-Learning 是否要入坑“深度強化學習”，看了這篇論文再說！深度強化學習資料（視頻+PPT+PDF下載） zt:跟着阿爾法狗理解深度強化學習框架 Proximal Policy Optimization Algorithm (PPO) 【深度強化學習】