分布式強化學習基礎概念（Distributional RL）

1. Q-learning

在 Q-learning 中，我們想要優化如下的 loss：

Distributional RL 的主要思想是：to work directly with the full distribution of the return rather than with its expectation.

假設隨機變量 Z(s, a) 是獲得的回報（return），那么：Q(s, a) = E(Z(s, a)) ; 並非像公式（1）中所要最小化的誤差那樣，也就是期望的距離。

我們可以直接最小化這兩個分布之間的距離，which is a distance between full distribution：

其中，R(s, a) 是即刻獎賞的隨機變量，sup 是函數值的上界的意思，英文解釋為：supremum。並且：

注意的是，我們依然用的是 Q(s, a)，但是，此處我們嘗試優化 distributions，而不是這些分布的期望。

2. Policy Evaluation：

Reference Paper：

1. https://arxiv.org/pdf/1707.06887.pdf

2. https://arxiv.org/pdf/1710.10044.pdf

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 【強化學習RL】必須知道的基礎概念和MDP 關於RL強化學習的研究上手使用 DeepMind 分布式強化學習框架 Acme ，對開發者超友好強化學習模型實現RL-Adventure（DQN）強化學習一：模型基礎強化學習（一）模型基礎強化學習的概念、適用場景【強化學習RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等 [源碼解析] PyTorch 分布式(4)------分布式應用基礎概念（十一）從零開始學人工智能--強化學習: 強化學習入門基礎