文獻筆記:Deterministic Policy Gradient Algorithms


為什么需要引入決定性策略梯度?

決定性策略梯度算法對於策略函數的更新形式比較簡單,就是action-value函數的期望,這種簡單的形式能夠在估計policy時變得更有效。

 

作為隨機策略,在相同的策略,在同一個狀態處,采用的動作是基於一個概率分布的,即是不確定的。而確定性策略則決定簡單點,雖然在同一個狀態處,采用的動作概率不同,但是最大概率只有一個,如果我們只取最大概率的動作,去掉這個概率分布,那么就簡單多了。即作為確定性策略,相同的策略,在同一個狀態處,動作是唯一確定的,即策略變成

\[\pi _ { \theta } ( s ) = a\]

論文首先回顧了隨機策略Policy Gradiet算法以及其函數逼近理論,指出如果滿足:

(1) $Q ^ { w } ( s , a ) = \nabla _ { \theta } \log \pi _ { \theta } ( a | s ) ^ { \top } w$。(2)$w$可以最小化MSE損失函數$\epsilon ^ { 2 } ( w ) = \mathbb { E } _ { s \sim \rho ^ { \pi } , a \sim \pi _ { \theta } } \left[ \left( Q ^ { w } ( s , a ) - Q ^ { \pi } ( s , a ) \right) ^ { 2 } \right]$。則函數估計$Q ^ { w } ( s , a ) \approx Q ^ { \pi } ( s , a )$是無偏的

 

對於決定性策略,本文首先給出了策略函數的更新方式,其中$\mu_{\theta}(s)$為策略函數

\[\theta ^ { k + 1 } = \theta ^ { k } + \alpha \mathbb { E } _ { s \sim \rho ^ { \mu ^ { k } } } \left[ \nabla _ { \theta } Q ^ { \mu ^ { k } } \left( s , \mu _ { \theta } ( s ) \right) \right]\]

運用鏈式法則,上式可以改寫成:

\[\theta ^ { k + 1 } = \theta ^ { k } + \alpha \mathbb { E } _ { s \sim \rho ^ { \mu ^ { k } } } \left[ \nabla _ { \theta } \mu _ { \theta } ( s ) \nabla _ { a } Q ^ { \mu ^ { k } } \left. ( s , a ) \right| _ { a = \mu _ { \theta } ( s ) } \right]\]

隨后論文3.2部分給出了上述策略函數更新的理論證明,記$\rho_{\mu}(s)$表示由策略$\mu_{theta}(s)$生成的平穩分布,則優化目標可以寫為:

\begin{aligned} J \left( \mu _ { \theta } \right) & = \int _ { \mathcal { S } } \rho ^ { \mu } ( s ) r \left( s , \mu _ { \theta } ( s ) \right) \mathrm { d } s \\ & = \mathbb { E } _ { s \sim \rho ^ { \mu } } \left[ r \left( s , \mu _ { \theta } ( s ) \right) \right] \end{aligned}

(上式的個人理解表示平均一步回報)

該證明與策略梯度函數逼近論文Policy Gradient Methods for Reinforcement Learning with Function Approximation證明類似,表明了目標函數梯度不涉及平穩分布函數導數的計算。具體的定理形式為: 

作者首先給出了On policy的DPG算法:

 \begin{aligned} \delta _ { t } & = r _ { t } + \gamma Q ^ { w } \left( s _ { t + 1 } , a _ { t + 1 } \right) - Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ w _ { t + 1 } & = w _ { t } + \alpha _ { w } \delta _ { t } \nabla _ { w } Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ \theta _ { t + 1 } & = \theta _ { t } + \alpha _ { \theta } \nabla _ { \theta } \mu _ { \theta } \left( s _ { t } \right) \nabla _ { a } Q ^ { w } \left. \left( s _ { t } , a _ { t } \right) \right| _ { a = \mu _ { \theta } ( s ) } \end{aligned}

其中$w$是針對$Q$的估計函數$Q^w$的參數,其更新的准則是根據MSE計算出來的。$\theta$是策略函數$\mu_{\theta}$的參數。

其后論文又給出了off-policy的DPG算法,其中我們所希望評估的策略函數為$\mu_{\theta}$,為了進行探索而實際采用的策略函數為$\beta$,記$\rho^{\beta}(s)$表示由策略$\beta$生成的平穩分布,則准則函數可以寫成:

\begin{aligned} \nabla _ { \theta } J _ { \beta } \left( \mu _ { \theta } \right) & \approx \int _ { \mathcal { S } } \rho ^ { \beta } ( s ) \nabla _ { \theta } \mu _ { \theta } ( a | s ) Q ^ { \mu } ( s , a ) \mathrm { d } s \\ & = \mathbb { E } _ { s \sim \rho ^ { \beta } } \left[ \nabla _ { \theta } \mu _ { \theta } ( s ) \nabla _ { a } Q ^ { \mu } \left. ( s , a ) \right| _ { a = \mu _ { \theta } ( s ) } \right] \end{aligned}

 注意到對於決定性策略,不存在選擇策略的概率這一表達,因此,在更新過程中可以避免傳統的基於概率的重要性采樣計算,所以算法可以表述成下面形式:

\begin{aligned} \delta _ { t } & = r _ { t } + \gamma Q ^ { w } \left( s _ { t + 1 } , \mu _ { \theta } \left( s _ { t + 1 } \right) \right) - Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ w _ { t + 1 } & = w _ { t } + \alpha _ { w } \delta _ { t } \nabla _ { w } Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ \theta _ { t + 1 } & = \theta _ { t } + \alpha _ { \theta } \nabla _ { \theta } \mu _ { \theta } \left( s _ { t } \right) \nabla _ { a } Q ^ { w } \left. \left( s _ { t } , a _ { t } \right) \right| _ { a = \mu _ { \theta } ( s ) } \end{aligned}

最后,論文給出了DPG的采用線性函數逼近定理,以及在線性逼近下加入baseline的更新算法,以及拓展到MSPBE(即采用二次損失函數,梯度時序差分算法)的更新算法。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM