分布式強化學習基礎概念(Distributional RL )


 

分布式強化學習基礎概念(Distributional RL)

 

from: https://mtomassoli.github.io/2017/12/08/distributional_rl/

1. Q-learning

在 Q-learning 中,我們想要優化如下的 loss:

  

Distributional RL 的主要思想是:to work directly with the full distribution of the return rather than with its expectation.

假設隨機變量 Z(s, a) 是獲得的回報(return),那么:Q(s, a) = E(Z(s, a)) ; 並非像公式(1)中所要最小化的誤差那樣,也就是 期望的距離。

我們可以直接最小化這兩個分布之間的距離,which is a distance between full distribution:

其中,R(s, a) 是即刻獎賞的隨機變量,sup 是函數值的上界的意思,英文解釋為:supremum。並且:

注意的是,我們依然用的是 Q(s, a),但是,此處我們嘗試優化 distributions,而不是這些分布的期望。

 

2. Policy Evaluation

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 Reference Paper:

1. https://arxiv.org/pdf/1707.06887.pdf 

2. https://arxiv.org/pdf/1710.10044.pdf

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM