深度強化學習——GAE(待重寫)


GAE

abstract

策略梯度算法可以直接優化累計獎勵,並且可以直接用於神經網絡等非線性函數逼近器。但是存在兩個挑戰:

  • 需要大量的樣本

  • 很難讓算法在變化的數據中獲得穩定的上升。

而在本章中,使用價值函數,通過類似於的優勢函數的指數加權估計值,來答復減少策略梯度估計值的偏差。通過對策略和值函數使用置信域的方法來解決第二個問題。

Introduction

強化學習中的典型問題是使策略的期望總回報最大化,但是其中難度的一個關鍵來源使動作和產生的影響之間的長時間延遲。這個問題被稱為the credit assignment problem。

但現在我們可以使用值函數的方式來估計延遲的獎勵。

  • 當使用參數化隨機策略使,是可以得到總回報梯度的無偏估計。但是梯度估計量的方差步符合時間范圍,因為行動影響與過去和未來行動的影響混雜在一起。

  • 另一類為策略梯度算法,使用價值函數而不是經驗回報,以引入偏差為代價獲得方差更低的估計量。

  • 但是盡管高方差需要使用更多的樣本,偏差卻更有害——即使有無限數量的樣本,偏差也會導致算法無法收斂,或者收斂到一個甚至不是局部最優解的糟糕解。

本文的主要貢獻為:

  1. 為策略梯度的有效方差減少方案提供了理由和直覺,稱之為廣義優勢估計(GAE)

  2. 提出了一種基於信賴域的值函數優化方法。

  3. 得到了一種經驗上有效的學習神經網絡策略的算法,用於連續的控制任務。

Preliminaries

策略梯度可以有以下的幾種表達方式:

並給出如下的定義:

可以發現在,使用A時,可以使策略梯度的方差最小。

通過引入折扣回報,上述的三個定義將修改為:

策略梯度也會修改為:

並給出定義近似,即對進行近似替代后,不會產生偏差。

定義一個估計近似,需要:

此時有以下的性質:

其中一個的充分條件是可以分解為兩個函數的形式,其中可以依賴於任何軌跡,但是是需要是上訴定義的Q函數的無偏估計,需要是在采樣之前的狀態和動作的任何函數。

一些常見的近似如:

 

ADVANTAGE FUNCTION ESTIMATION

在本節中,是為了找到對的一個准確的估計,並用來構建策略梯度的近似估計:

在定義TD-error后,,可以將考慮為動作的優勢估計:

由於也是擁有時間的區分的,因此也可以對不同時間的步數進行區分,即可以產生如下定義:

我們看到,即一個k步的折扣回報和減去一個基線函數,當使,可以得到:

,那么此時我們就可以得到廣義優勢函數(GAE)的定義了:

並且對於,這兩種情況,GAE有特殊的表達

  • 時,,但是會引入高方差

  • 時,,但是由於求和,它雖然擁有更小的方差但是會帶來偏差。

對於GAE來說有兩個獨立的參數,這兩個方差都有助於減少方差和偏差,但是它們有不同的用途,並且取得最好效果的時候值也不同。

  • 最重要的是決定了的尺度,它不依賴於。無論值函數的准確性如何,如果,都會在策略梯度中引入偏差

  • 時,只有在值函數不准確時引入偏差

  • 並且根據實驗,發現的最佳值遠低於的最佳值,這可能時因為引入的偏差遠小於

使用GAE,我們可以構造的無偏估計:

Interpretation as Reward shaping

Reward shaping是將回報函數進行轉換:

把么我們可以得到一個軌跡的折扣回報為:

並且通過下式我們可以發現,是沒有產生變化的:

並且如果.那么狀態值函數為0.

那么令,並且為了防止遠距離獎勵帶來的噪聲,因此加上一個更快的衰減,就得到了前面定義的GAE:

Frequently asked questions

why don't you just use a Q—Function

如果使用動作值函數進行模擬,那么在函數的輸入中還應該包括動作,那么與狀態值相比,使用動作值函數過於復雜了。這樣會帶來更大的偏差。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM