為什么需要引入決定性策略梯度?
決定性策略梯度算法對於策略函數的更新形式比較簡單,就是action-value函數的期望,這種簡單的形式能夠在估計policy時變得更有效。
作為隨機策略,在相同的策略,在同一個狀態處,采用的動作是基於一個概率分布的,即是不確定的。而確定性策略則決定簡單點,雖然在同一個狀態處,采用的動作概率不同,但是最大概率只有一個,如果我們只取最大概率的動作,去掉這個概率分布,那么就簡單多了。即作為確定性策略,相同的策略,在同一個狀態處,動作是唯一確定的,即策略變成
\[\pi _ { \theta } ( s ) = a\]
論文首先回顧了隨機策略Policy Gradiet算法以及其函數逼近理論,指出如果滿足:
(1) $Q ^ { w } ( s , a ) = \nabla _ { \theta } \log \pi _ { \theta } ( a | s ) ^ { \top } w$。(2)$w$可以最小化MSE損失函數$\epsilon ^ { 2 } ( w ) = \mathbb { E } _ { s \sim \rho ^ { \pi } , a \sim \pi _ { \theta } } \left[ \left( Q ^ { w } ( s , a ) - Q ^ { \pi } ( s , a ) \right) ^ { 2 } \right]$。則函數估計$Q ^ { w } ( s , a ) \approx Q ^ { \pi } ( s , a )$是無偏的。
對於決定性策略,本文首先給出了策略函數的更新方式,其中$\mu_{\theta}(s)$為策略函數
\[\theta ^ { k + 1 } = \theta ^ { k } + \alpha \mathbb { E } _ { s \sim \rho ^ { \mu ^ { k } } } \left[ \nabla _ { \theta } Q ^ { \mu ^ { k } } \left( s , \mu _ { \theta } ( s ) \right) \right]\]
運用鏈式法則,上式可以改寫成:
\[\theta ^ { k + 1 } = \theta ^ { k } + \alpha \mathbb { E } _ { s \sim \rho ^ { \mu ^ { k } } } \left[ \nabla _ { \theta } \mu _ { \theta } ( s ) \nabla _ { a } Q ^ { \mu ^ { k } } \left. ( s , a ) \right| _ { a = \mu _ { \theta } ( s ) } \right]\]
隨后論文3.2部分給出了上述策略函數更新的理論證明,記$\rho_{\mu}(s)$表示由策略$\mu_{theta}(s)$生成的平穩分布,則優化目標可以寫為:
\begin{aligned} J \left( \mu _ { \theta } \right) & = \int _ { \mathcal { S } } \rho ^ { \mu } ( s ) r \left( s , \mu _ { \theta } ( s ) \right) \mathrm { d } s \\ & = \mathbb { E } _ { s \sim \rho ^ { \mu } } \left[ r \left( s , \mu _ { \theta } ( s ) \right) \right] \end{aligned}
(上式的個人理解表示平均一步回報)
該證明與策略梯度函數逼近論文Policy Gradient Methods for Reinforcement Learning with Function Approximation證明類似,表明了目標函數梯度不涉及平穩分布函數導數的計算。具體的定理形式為:
作者首先給出了On policy的DPG算法:
\begin{aligned} \delta _ { t } & = r _ { t } + \gamma Q ^ { w } \left( s _ { t + 1 } , a _ { t + 1 } \right) - Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ w _ { t + 1 } & = w _ { t } + \alpha _ { w } \delta _ { t } \nabla _ { w } Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ \theta _ { t + 1 } & = \theta _ { t } + \alpha _ { \theta } \nabla _ { \theta } \mu _ { \theta } \left( s _ { t } \right) \nabla _ { a } Q ^ { w } \left. \left( s _ { t } , a _ { t } \right) \right| _ { a = \mu _ { \theta } ( s ) } \end{aligned}
其中$w$是針對$Q$的估計函數$Q^w$的參數,其更新的准則是根據MSE計算出來的。$\theta$是策略函數$\mu_{\theta}$的參數。
其后論文又給出了off-policy的DPG算法,其中我們所希望評估的策略函數為$\mu_{\theta}$,為了進行探索而實際采用的策略函數為$\beta$,記$\rho^{\beta}(s)$表示由策略$\beta$生成的平穩分布,則准則函數可以寫成:
\begin{aligned} \nabla _ { \theta } J _ { \beta } \left( \mu _ { \theta } \right) & \approx \int _ { \mathcal { S } } \rho ^ { \beta } ( s ) \nabla _ { \theta } \mu _ { \theta } ( a | s ) Q ^ { \mu } ( s , a ) \mathrm { d } s \\ & = \mathbb { E } _ { s \sim \rho ^ { \beta } } \left[ \nabla _ { \theta } \mu _ { \theta } ( s ) \nabla _ { a } Q ^ { \mu } \left. ( s , a ) \right| _ { a = \mu _ { \theta } ( s ) } \right] \end{aligned}
注意到對於決定性策略,不存在選擇策略的概率這一表達,因此,在更新過程中可以避免傳統的基於概率的重要性采樣計算,所以算法可以表述成下面形式:
\begin{aligned} \delta _ { t } & = r _ { t } + \gamma Q ^ { w } \left( s _ { t + 1 } , \mu _ { \theta } \left( s _ { t + 1 } \right) \right) - Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ w _ { t + 1 } & = w _ { t } + \alpha _ { w } \delta _ { t } \nabla _ { w } Q ^ { w } \left( s _ { t } , a _ { t } \right) \\ \theta _ { t + 1 } & = \theta _ { t } + \alpha _ { \theta } \nabla _ { \theta } \mu _ { \theta } \left( s _ { t } \right) \nabla _ { a } Q ^ { w } \left. \left( s _ { t } , a _ { t } \right) \right| _ { a = \mu _ { \theta } ( s ) } \end{aligned}
最后,論文給出了DPG的采用線性函數逼近定理,以及在線性逼近下加入baseline的更新算法,以及拓展到MSPBE(即采用二次損失函數,梯度時序差分算法)的更新算法。