DRL之:策略梯度方法 (Policy Gradient Methods)


  

DRL 教材 Chpater 11 --- 策略梯度方法(Policy Gradient Methods)

 

  前面介紹了很多關於 state or state-action pairs 方面的知識,為了將其用於控制,我們學習 state-action pairs 的值,並且將這些值函數直接用於執行策略和選擇動作.這種形式的方法稱為:action-value methods.

  下面要介紹的方法也是計算這些 action (or state) values,但是並非直接用於選擇 action, 而是直接表示該策略,其權重不依賴於任何值函數.

  1.1 Actor-Critic Methods.

  Actor-critic methods 是一種時序查分方法(TD),有一個獨立的記憶結構來顯示的表示策略,而與 value function 無關.該策略結構稱為:actor,因為其用於選擇動作,預測的值函數被稱為:critic,因為其用於批判 actor 執行的動作.學習是on-policy的: the critic must learn about and critique whatever policy is currently being followed by the actor. The critique takes the form of a TD error. 尺度信號是單純的 critic 的輸出,並且引導 actor and critic 的學習,像下圖所示:

  

  Actor-critic methods 是 gradient-bandit methods自然的拓展到 TD-learning和全部的 RL 學習問題. 通常情況下, the critic 是狀態-值函數.再一次的動作選擇之后,the critic 評價新的策略來檢測是否事情朝着期望的方向發展.評價通常是根據 TD error 得到的:

  其中,$V_t$是第 t 時刻 the critic 執行的值函數,TD error可以被用來評價剛剛選擇的 action,在狀態$S_t$下選擇的動作$A_t$.是否TD error是 positive的,這表明若是,則會在將來加強選擇該動作的趨勢,若是負的,則會降低選擇該動作的優先級.假設動作是由 the Gibbs softmax method 產生的:

  其中,$H_t(s, a)$是在第 t 時刻由策略參數可改變的 actor 的值,表示在時刻 t 狀態 s 下選擇每一個動作 a 的趨勢(preference).通過增加或者減少 $H_t(S_t, A_t)$ 來調整上述選擇,即:

  其中 $\beta$是另一個正的步長參數.

  這僅僅是 actor-critic method 的案例,另一個變種用另一種方式來選擇動作,或者 eligibility traces.另一個共同的地方,像強化對比方法,是為了包括額外的因子來改變證據的量(is to include additional factors varying the amount of credit assigned to the action taken, $A_t$).比如,一個通用的像這樣的因子是和選擇動作$A_t$相反的關系,得到如下的更新法則:

  許多最早的強化學習系統利用的TD方法是 actor-critic methods. 然后,更多的注意力被放在學習動作-值函數(action-value functions) 和 從估計的值來充分的決定一個策略(例如:Sarsa and Q-learning).這個分化也許僅僅是一個歷史的偶爾.例如:你可能會想到中間的結構,an action-value function 和 an independent policy 將會被學到.在任何事件當中,actor-critic methods 是為了保持當前的興趣,由於兩個特別明顯的優勢:

  1.他們需要最小的計算量來達到選擇動作的目的.考慮一種情況,有許多有限的可能的選擇---例如,一個 continuous-valued action.任何方法僅僅學習動作值(action values)必須搜索這個有限的結合,從而實現選擇 action 的目的.如果該policy是顯示的存儲的,接着,對於每一個動作選擇可能不需要如此的計算量.

  2.他們可以學習一個顯示的隨機策略;即,他們可以學習選擇不同 actions 的最優概率.這個能力被證明在競爭和non-Markov cases 是非常有效的.

  此外,在 actor-critic methods 不同的 actor 會使得他們在一些領域更有吸引力,如:生物模型.在一些領域中,可能也更加簡單的在允許的策略結合上進行特定領域的約束.

 

  11.2 Eligibility Traces for Actor-Critic Methods

   

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM