Distributional Reinforcement Learning with Quantile Regression

本文轉載自查看原文 2020-07-10 13:45 493 強化學習

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！

arXiv:1710.10044v1 [cs.AI] 27 Oct 2017

In AAAI Conference on Artificial Intelligence (2018).

Abstract

　　在強化學習中，智能體通過采取動作並觀察下一個狀態和獎勵來與環境交互。當概率采樣時，這些狀態轉換，獎勵和動作都會在觀察到的長期回報中引起隨機性。傳統強化學習算法會對此隨機性求均值以估計價值函數。在本文中，我們以最近的工作為基礎，該工作提出一種采用分布方法進行強化學習的方法，在該方法中，對回報的分布進行了建模，而不是僅僅估計均值。也就是說，我們研究了學習價值分布而不是價值函數的方法。我們給出的結果彌合了Bellemare，Dabney和Munos（2017）給出的理論和算法結果之間的許多差距。首先，我們將現有結果擴展到近似分布設置。其次，我們提出了一種與我們的理論公式相一致的新穎的分布強化學習算法。最后，我們在Atari 2600游戲上評估了該新算法，發現它大大優於DQN的許多最新改進，包括相關的分布算法C51。

Introduction

　　在強化學習中，狀態s中的動作a的價值描述了從該狀態開始，選擇動作a，然后遵循規定的策略所獲得的期望回報或折扣獎勵總和。因為知道最優策略的價值足以執行最優動作，所以它是通過經典的基於價值的方法（例如SARSA (Rummery and Niranjan, 1994) 和Q-Learning (Watkins and Dayan, 1992) ）建模的目的，它們使用了Bellman方程 (Bellman, 1957) ）以有效地思考價值。
　　最近，Bellemare, Dabney和Munos（2017）表明，隨機回報的分布（其期望構成上述價值）可以通過Bellman方程的分布類似物來描述，與風險敏感的強化學習中的先前結果相呼應（Heger, 1994；Morimura et al., 2010；Chow et al., 2015）。但是，在先前的工作中，作者主張對這種價值分布本身進行建模是有用的。他們的主張是通過展示一種分布強化學習算法C51來實現的，該算法實現了基准Atari 2600游戲套件的最新技術（Bellemare et al., 2013）。

　　C51工作的理論貢獻之一就是證明了分布Bellman算子是概率分布之間Wasserstein度量最大形式的壓縮。在這種情況下，Wasserstein度量特別有趣，因為它不會受到執行Bellman更新時出現的脫節支持問題（Arjovsky, Chintala and Bottou, 2017）的困擾。不幸的是，這個結果並不能直接導致一種實用的算法：正如作者所指出的那樣，並且由Bellemare et al.（2017）進一步開發，Wasserstein度量被視為一種損失，通常無法使用隨機梯度法將其最小化。
　　這個否定的結果使人們有疑問，是否有可能設計出一種利用壓縮結果的在線分布強化學習算法。取而代之的是，C51算法首先執行啟發式投影步驟，然后最小化投影的Bellman更新和預測之間的KL差異。因此，這項工作在我們對分布強化學習的理解上留下了理論-實踐上的空白，這使得難以解釋C51的良好性能。因此，Wasserstein度量上端到端的分布算法的存在仍然是一個懸而未決的問題。
　　在本文中，我們肯定地回答了這個問題。通過訴諸分位數回歸理論（Koenker, 2005），我們表明存在一種算法，該算法適用於隨機近似設置，該算法可以對Wasserstein度量執行分布強化學習。
　　我們的方法依賴於以下技術：

我們從C51中“轉置”參數化：前者使用N個固定位置作為其近似分布並調整其概率，我們將固定的均勻概率分配給N個可調整位置。
我們證明了分位數回歸可以用於隨機調整分布的位置，以最小化與目標分布的Wasserstein距離。
我們正式證明了整體算法的壓縮映射結果，並使用這些結果得出結論，我們的方法可以根據需要在Wasserstein度量下端對端執行分布RL。

　　盡管仍然通過最大化期望來發揮作用，最初分布算法的主要興趣在於其最先進的性能。人們自然會期望，直接將Wasserstein度量最小化而不是啟發式近似會產生更好的結果。我們為我們的方法（QR-DQN）推導了Q-Learning模擬，將其應用於同一套Atari 2600游戲，並發現它可以實現更好的性能。通過使用分位數回歸的平滑版本，Huber分位數回歸，我們已經比最新的C51高了33％的中位數。

Distributional RL

　　我們通過馬爾可夫決策過程(MDP) (X, A, R, P, γ) (Puterman, 1994)對智能體-環境的交互進行建模，其中X和A為狀態和動作空間，R為隨機變量獎勵函數P(x' | x, a)在采取動作a之后從狀態x轉換為狀態x'的概率，且折扣因子γ∈[0, 1）。策略π(· | x)將每個狀態x∈X映射到A上的分布。
　　對於固定策略π，回報()是一個隨機變量，表示沿着一個狀態軌跡所觀察到的折扣獎勵之和。標准RL算法估算Z^π的期望價值，即價值函數：

同樣，許多RL算法會估算動作-價值函數：

　　關於Q^π的ε-貪婪策略均勻隨機地以概率ε選擇動作，否則根據argmax_aQ^π(x, a)進行選擇。

　　在分布RL中，回報的分布（即Z^π的概率定律）起着核心作用並取代了價值函數。我們將通過其隨機變量來指代價值分布。當我們說價值函數是價值分布的均值時，指的是價值函數是在價值分布的所有內在隨機性源（Goldstein, Misra and Courtage, 1981）上得到的期望價值。這應該突出表明，價值分布並不是設計來捕獲價值函數估計中的不確定性（Dearden, Friedman and Russell, 1998； Engel, Mannor and Meir, 2005），而是參數不確定性，而在於MDP固有的回報。
　　時序差分（TD）方法通過使用Bellman算子進行動態編程來逐步提高Q^π的估計價值，從而顯著加快了學習過程（Bellman, 1957）：

　　類似地，可以使用分布Bellman算子（Bellemare, Dabney and Munos, 2017）通過動態編程來計算價值分布：

其中表示概率密度相等，即隨機變量Y根據與U相同的密度分布。

　　C51算法使用離散分布對Z^π(x, a)進行建模，該離散分布支持在固定位置z₁ ≤ … ≤ z_N的“梳子”上，且均勻分布在預定間隔上。該分布的參數是與每個位置z_i相關聯的概率q_i，用對數表示。在給定當前價值分布的情況下，C51算法應用投影步驟將目標T^πZ映射到其有限元支持上，然后執行Kullback-Leibler（KL）最小化步驟（請參見圖1）。C51在Atari 2600游戲上達到了最先進的性能，但與Bellemare，Dabney和Munos（2017）的理論結果明顯脫節。現在，我們先回顧這些結果，然后再將它們推廣到近似分布的情況。

The Wasserstein Metric

　　對於p∈[1, ∞]，p-Wasserstein度量W_p，這被稱為Mallows度量（Bickel and Freedman, 1981），當p=1時，這被稱為或陸地移動距離（EMD）（Levina and Bickel, 2001），是分布之間的積分概率度量。p-Wasserstein距離的特征是逆累積分布函數（逆CDF）的L^p度量（Müller, 1997）。也就是說，分布U和Y之間的p-Wasserstein度量由下式給出：¹

其中，對於隨機變量Y，Y的逆CDF定義為：

其中F_Y(y) = Pr(Y≤y)是Y的CDF。圖2將1-Wasserstein距離說明為兩個CDF之間的面積。

　　最近，Wasserstein度量具有尊重結果之間潛在的度量距離的吸引人的特性，因此成為越來越多的研究重點（Arjovsky, Chintala and Bottou, 2017; Bellemare et al., 2017）。與Kullback-Leibler散度不同，Wasserstein度量是一個真實的概率度量，它同時考慮了各種結果事件的概率以及兩者之間的距離。這些特性使Wasserstein非常適合於結果的潛在相似性比精確匹配可能性更重要的領域。

The convergence of Distributional Bellman Operator

　　在分布RL的上下文中，令Z為具有有限矩的動作-價值分布的空間：

　　然后，對於兩個動作-價值分布Z₁, Z₂∈Z，我們將使用由（Bellemare, Dabney and Munos, 2017）引入的Wasserstein度量的最大形式：

　　結果表明，是衡量價值分布的度量。此外，分布Bellman算子T^π是的壓縮，我們現在回想一下結果。

　　在實際情況下，此問題變得很突出，在這種情況下，價值分布必須近似。至關重要的是，不能保證C51算法會最小化任何p-Wasserstein度量。分布RL中的理論與實踐之間的差距並不限於C51。Morimura et al.（2010）使用高斯或拉普拉斯分布的均值和尺度對價值分布進行參數化，並最小化目標T^πZ和預測Z之間的KL散度。他們證明以這種方式學習到的價值分布足以執行風險敏感的Q-Learning。但是，從他們的方法得出的任何理論保證都只能是漸近的。Bellman算子充其量是KL散度的非拓展。

Approximately Minimizing Wasserstein

　　回想一下，C51通過附加變量（參數化）概率q₁, …, q_N到固定位置z₁ ≤ … ≤ z_N來近似表示每個狀態的分布。我們的方法是通過考慮固定概率但位置可變來“轉置”此參數化。具體來說，我們采用統一的權重，因此對於每個i=1, …, N，q_i=1/N。

　　實際上，我們的新近似方法旨在估計目標分布的分位數。因此，我們將其稱為分位數分布，並令Z_Q為固定N的分位數分布的空間。我們將與該分布相關的累積概率（即CDF所采用的離散價值）表示為τ₁, …, τ_N，因此對於i=1, …, N，。我們還將τ₀=0以簡化表示法。

　　與原始參數化相比，參數化分位數分布的好處是三個方面的。首先，（1）我們不受限於支持的預定范圍或均勻的分辨率，當各狀態的回報范圍差異很大時，有可能導致更准確的預測。（2）這還使我們消除了C51中存在的笨拙的投影步驟，因為沒有脫節支持的問題。當將算法應用於新任務時，這些共同消除了對關於回報分布范圍的領域知識的需求。最后，（3）這種重參數化使我們能夠將Wasserstein損失降到最低，而不會受到有偏梯度的影響，特別是使用分位數回歸。

The Quantile Approximation

　　眾所周知，在強化學習中，函數逼近的使用可能會導致學習過程不穩定（Tsitsiklis and Van Roy, 1997）。具體地說，投影到近似空間上的Bellman更新可能不再是壓縮。在我們的案例中，我們分析了分布Bellman更新，投影到參數化的分位數分布上，並證明組合算子是一個壓縮。

Quantile Projection 我們感興趣的是量化任意價值分布在上的投影，即：

　　令Y為有界第一矩的分布，U為N Diracs上的均勻分布，如（7）所示，其支持為。然后，

²由於篇幅所限，我們保留附錄的證明。

Quantile Regression

　　定理1的原始證明僅表明存在有偏梯度的分布。作為結果，我們可能希望分位數參數化導致無偏梯度。不幸的是，事實並非如此。

　　但是，有一種方法在經濟學中比機器學習更廣泛地用於分位數函數的無偏隨機逼近。分位數回歸和條件分位數回歸分別是逼近分布和條件分布的分位數函數的方法（Koenker, 2005）。這些方法已被用於結局具有內在隨機性的各種環境中（Koenker and Hallock, 2001）；從食品支出到家庭收入的函數（Engel, 1857），到研究經濟模型中的風險價值（Taylor, 1999）。
　　對於分位數τ∈[0, 1]，分位數回歸損失是一個非對稱凸損失函數，該函數懲罰權重為τ的高估誤差和權重為1-τ的低估誤差。對於分布Z和給定分位數τ，分位數函數的價值可以表征為分位數回歸損失的最小值：

　　更一般地，通過引理2，我們對W₁(Z, Z_θ)最小化{θ₁, …, θ_N}的值，這些值最小化以下目標：

　　特別是，這種損失會產生無偏的樣本梯度。作為結果，通過隨機梯度下降，我們可以找到最小化{θ₁, …, θ_N}的值。

Quantile Huber Loss 分位數回歸損失在零處不平滑；當u → 0⁺時，公式8的梯度保持恆定。我們假設使用非線性函數逼近會限制性能。為此，我們還考慮了改進的分位數損失，稱為分位數Huber損失。³這種分位數回歸損失在零附近的區間[-κ, κ]充當不對稱平方損失，並還原到此間隔之外的標准分位數損失。

　　Huber損失由（Huber, 1964）給出，

　　分位數Huber損失就是Huber損失的不對稱變體，

　　為了簡化符號，我們將設置，即它將還原為標准的分位數回歸損失。

³我們的分位數Huber損失與Aravkin et al.（2014）的損失有關，但與其有所不同。

Combining Projection and Bellman Update

　　現在，我們可以證明我們的主要結果，該結果表明分位數回歸所隱含的投影與Bellman算子的組合是一個壓縮。結果是∞-Wasserstein度量，即兩個CDF之間最大間隙的大小。

Distributional RL using Quantile Regression

　　現在，我們可以形成一個與我們的理論結果相符的完整算法，用於分布RL。也就是說，用引理2定義的分位數中點集上的參數化分位數分布來近似價值分布。然后，使用分位數回歸來訓練位置參數（公式8）。

Quantile Regression Temporal Difference Learning

　　回顧用於評估策略π的標准TD更新，

　　TD允許我們隨着π用單個無偏樣本來更新估計價值函數。分位數回歸還允許我們通過觀察樣本y ~ Y(x)，並使等式8最小化來改進某些目標分布Y(x)的分位數函數的估計。
　　此外，我們已經表明，通過為τ∈(0, 1)的精心選擇的價值估計分位數函數，我們可以獲得與原始值（引理2）的1-Wasserstein距離最小的近似。最后，我們可以將其與分布Bellman算子結合起來，以給出分位數回歸的目標分布。這為我們提供了分位數回歸時序差分學習（QRTD）算法，該算法用更新進行簡單地歸納，

其中Z_θ是（7）中的分位數分布，θ_i(x)是狀態x下的估計價值。重要的是要注意，此更新針對的每個價值，並針對來自下一個狀態價值分布的單個樣本進行定義。通常，最好繪制z' ~ Z(x')的許多樣本，並盡量減少期望更新。在這種情況下，我們在實踐中使用的自然方法是為(θ_i(x), θ_j(x'))的所有對計算更新。接下來，我們轉向控制算法並使用非線性函數逼近。

Quantile Regression DQN

　　Q-Learning是一種脫離策略的強化學習算法，使用Bellman最優算子建立圍繞直接學習最優動作-價值函數（Watkins and Dayan, 1992），

　　它的分布變量是估計狀態-動作價值分布並應用分布Bellman最優算子，

特別注意，用於下一個狀態的動作是相對於下一個狀態-動作價值分布均值的貪婪動作。

　　對於一個具體的算法，我們將基於DQN架構（Mnih et al., 2015），我們關注於形成DQN的分布版本所需的最小更改。具體來說，我們需要對DQN進行三處修改。首先，我們使用與DQN幾乎相同的神經網絡架構，只是將輸出層更改為大小|A| x N，其中N是給出分位數目標數量的超參數。其次，我們用DQN⁴代替Huber損失，，並用分位數Huber損失（算法1給出的全損失）。最后，我們用Adam（Kingma and Ba, 2015）代替RMSProp（Tieleman and Hinton, 2012）。我們稱這種新算法為分位數回歸DQN（QR-DQN）。

　　與C51不同，QR-DQN不需要投影到近似分布的支持上，而是可以任意擴展或壓縮價值以覆蓋回報價值的真實范圍。另一個優點是，這意味着QR-DQN不需要附加的超參數即可提供C51所需的支持范圍。DQN不共享的QR-DQN的唯一的額外超參數是分位數數量N，它控制着我們以何種分辨率近似價值分布。隨着我們增加N，QR-DQN從DQN變為越來越能夠估計價值分布的上下分位數。它變得越來越有能力區分回報的累積分布兩端的低概率事件。

⁴DQN使用平方誤差的梯度裁剪，使其等於κ=1的Huber損失。

Experimental Results

　　在引言中，我們聲稱學習回報分布優於僅學習價值函數。在本節中，我們將憑經驗驗證所提出的分布強化學習算法：（1）了解回報的真實分布；（2）在訓練過程中顯示出更高的魯棒性；（3）與基准算法相比，大大提高了樣本復雜度和最終性能。

Value Distribution Approximation Error 我們通過證明QRTD實際上學習了一個近似價值分布來開始我們的實驗結果，使得該分布到回報的真實分布的1-Wasserstein最小化。盡管我們的理論結果已經建立了前者到后者的收斂，但是經驗性能有助於完善我們的理解。

　　我們使用經典的有風gridworld域的變體（Sutton and Barto, 1998），將其修改為在轉換中具有兩個空間和隨機性。圖3(a)顯示了我們版本的域，其中我們結合了轉換隨機性，風和門口，以便在第一個空間中的任何位置時，在回報上產生多峰分布。每個狀態轉換都有沿隨機方向移動的概率為0.1，否則該轉換會受到風將智能體向北移動的影響。獎勵函數為零，直到達到目標狀態x_G為止，該狀態終止eposide並給出獎勵1.0。折扣因子是γ=0.99。
　　我們通過執行1K蒙特卡洛（MC）部署並將觀察到的回報記錄為經驗分布，來計算每個狀態下通過策略迭代學習到的最優策略π的真實價值分布，如圖3(b)所示。接下來，我們同時運行TD(0)和QRTD進行10K個eposide。每個eposide都以指定的開始狀態（x_S）開始。兩種算法的初始學習率α=0.1。對於QRTD，我們使用N=32，每2K個episode減少一半的α。

　　令為從初始狀態x_S返回的MC估計分布，類似地，其均值為。在圖3中，我們顯示了兩種算法在x_S時相對於episode數量的近似誤差。在（d）中我們評估了TD(0)和QRTD的平方誤差，，在（e）中我們顯示了QRTD的1-Wasserstein度量，，其中V(x_S)和Z(x_S)是在算法估算的狀態x_S下的期望回報和價值分布。如預期的那樣，兩種算法的均值均正確收斂，QRTD最小化到的1-Wasserstein距離。

Evaluation on Atari 2600

　　現在，我們提供的實驗結果證明了與C51方法相比，最大限度地減小端到端Wasserstein度量的實際優勢。我們使用了Arcade學習環境（ALE）的57個Atari 2600游戲（Bellemare et al., 2013）。C51和QR-DQN都建立在標准DQN結構上，我們希望雙方都將從DQN的最新改進中受益，例如對偶結構（Wang et al., 2016）和優先回放（Schaul et al., 2016）。然而，在我們的評估中，我們比較了沒有這些附加的C51和QR-DQN的純粹版本。我們給出了嚴格分位數損失，κ=0（QR-DQN-0）和Huber分位數損失，κ=1（QR-DQN-1）的結果。
　　我們對五個訓練游戲進行了超參數調整，並使用這些最優設置（α=0.00005，ε_ADAM=0.01/32和N=200）對整個57個游戲進行了評估。⁵正如DQN，我們在計算分布Bellman更新時使用目標網絡。我們還允許ε以與DQN中相同的速率進行衰減，但衰減至較低價值0.01，這在最近工作中所常見（Bellemare, Dabney and Munos, 2017; Wang et al., 2016; van Hasselt, Guez and Silver, 2016）。
　　我們的訓練程序遵循Mnih et al.（2015）的方法，並且我們根據兩種評估協議展示了結果：最優智能體性能和在線性能。在這兩種評估協議中，我們都考慮了57種Atari 2600游戲的性能，並將原始分數轉換為人為化分數（van Hasselt, Guez and Silver, 2016）。

⁵我們遍歷α於（10^-3, 5 x 10^-4, 10^-4, 5 x 10^-5, 10^-5）；ε_ADAM於（0.01/32, 0.005/32, 0.001/32）；N於（10, 50, 100, 200）

Best agent performance 為了提供與現有工作相當的結果，我們報告了最佳智能體協議下的測試評估結果。每一百萬個訓練幀，學習就會凍結，並在記錄平均回報的同時，對智能體評估50萬個幀。評估eposide始於最多30次隨機無操作（Mnih et al., 2015），智能體使用較低的探索率（ε=0.001）。隨着訓練的進行，我們會跟蹤迄今為止取得的最優智能體性能。

　　表1給出了針對QR-DQN，C51，DQN，雙重DQN（van Hasselt, Guez and Silver, 2016），優先回放（Schaul et al., 2016）和對偶架構（Wang et al., 2016）經過2億幀訓練后的最優智能體性能。我們發現QR-DQN在人為歸一化分數均值和中位數方面優於之前所有的智能體。

Online performance 在此評估協議（圖4）中，我們跟蹤每次測試（左）和訓練（右）迭代期間獲得的平均回報。對於測試性能，我們為每種算法使用一個種子，但是顯示了在線性能，沒有任何形式的提前停止。對於訓練表現，價值是三個種子的平均值。我們不只是報告中位數的表現，而是查看整個游戲中人為歸一化分數的分布。每個塊代表固定百分比（10th、20th、30th、40th和50th）的分數分布。較高的百分比顯示出相似的趨勢，但為清晰起見在此省略，因為它們的比例使信息量較低的下半部分相形見絀。

　　由此，我們可以推斷出一些有趣的結果。（1）在學習初期，至少在10％的游戲中，大多數算法的性能都比隨機算法差。（2）QRTD在優先回放方面對樣本復雜度做出了類似的改進，同時還提高了最終性能。（3）即使在2億幀的情況下，也有10％的游戲中所有算法的使用率不到人為的10％。最后一點特別向我們表明，我們最近的所有進步仍然受到Atari 2600游戲的一小部分的嚴重限制。

Conclusions

　　在強化學習中，回報分布的重要性已經被（重新）發現並被強調很多次。在Bellemare, Dabney和Munos（2017）中，這一想法又向前邁進了一步，並被認為是近似強化學習的核心部分。但是，此文懸而未決的問題是，是否存在一種可以彌補Wasserstein度量理論與實際問題之間差距的算法。
　　在本文中，我們用理論貢獻和一種新算法填補了這一空白，該算法在Atari 2600中達到了最先進的性能。未來的工作還有許多有希望的方向。最令人興奮的是擴大動作-價值分布使之成為更豐富的策略類別的希望。我們提到了此類策略的一些示例，這些示例通常用於對風險敏感的決策中。但是，還有更多可能的決策策略將動作-價值分布作為一個整體來考慮。
　　此外，QR-DQN可能會受益於近年來對DQN所做的改進。例如，由於損失函數和Bellman算子的相似性，我們可能期望QR-DQN遭受與雙重DQN旨在解決的相似的高估偏差（van Hasselt, Guez and Silver, 2016）。自然而然的下一步是將QR-DQN與表1中的非分布方法相結合。

Appendix

Proofs