分布式強化學習基礎概念(Distributional RL)
from: https://mtomassoli.github.io/2017/12/08/distributional_rl/
1. Q-learning
在 Q-learning 中,我們想要優化如下的 loss:
Distributional RL 的主要思想是:to work directly with the full distribution of the return rather than with its expectation.
假設隨機變量 Z(s, a) 是獲得的回報(return),那么:Q(s, a) = E(Z(s, a)) ; 並非像公式(1)中所要最小化的誤差那樣,也就是 期望的距離。
我們可以直接最小化這兩個分布之間的距離,which is a distance between full distribution:
其中,R(s, a) 是即刻獎賞的隨機變量,sup 是函數值的上界的意思,英文解釋為:supremum。並且:
注意的是,我們依然用的是 Q(s, a),但是,此處我們嘗試優化 distributions,而不是這些分布的期望。
2. Policy Evaluation:
Reference Paper:
1. https://arxiv.org/pdf/1707.06887.pdf
2. https://arxiv.org/pdf/1710.10044.pdf