A Distributional Perspective on Reinforcement Learning


鄭重聲明:原文參見標題,如有侵權,請聯系作者,將會撤銷發布!

 

arXiv:1707.06887v1 [cs.LG] 21 Jul 2017

In International Conference on Machine Learning (2017).

 

Abstract

  在本文中,我們爭論了價值分布的根本重要性:強化學習智能體獲得的隨機回報的分布。這與強化學習的通用方法形成對比,后者是對這種回報或價值的期望進行建模的方法。盡管已有大量研究價值分布的文獻,但迄今為止,它一直被用於特定目的,例如實現風險意識行為。我們從策略評估和控制設置方面的理論結果開始,揭示了后者中的重大分布不穩定性。然后,我們使用分布的觀點來設計一種新算法,該算法將Bellman方程應用於近似價值分布的學習。我們使用Arcade學習環境中的游戲套件評估算法。我們同時獲得了最新結果和坊間證據,這些證據證明了價值分布在近似強化學習中的重要性。最后,我們結合理論和經驗證據來強調在近似設置中價值分布影響學習的方式。

 

1. Introduction

  強化學習的主要宗旨之一是,當動作不受其他方式的約束時,智能體應努力最大化期望效用Q或價值(Sutton&Barto, 1998)。Bellman方程根據隨機轉換(x, a) → (X', A')的期望回報和期望結果簡潔地描述了該價值:

   在本文中,我們的目標是超越價值觀念,並主張采用分布觀點來進行強化學習。具體來說,我們研究的主要對象是期望價值為Q的隨機回報Z。此隨機回報也由遞歸方程描述,但具有分布性質:

分布Bellman方程指出,Z的分布以三個隨機變量的相互作用為特征:獎勵R,下一個狀態-動作(X',  A')及其隨機回報Z(X', A')。與眾所周知的情況類似,我們將此數量稱為價值分布。
  盡管分布的觀點幾乎與Bellman方程本身一樣古老(Jaquette, 1973;Sobel, 1982;White, 1988),但到目前為止,在強化學習中,它已經服從於特定的目的:對參數不確定性建模(Dearden et al., 1998),設計風險敏感算法(Morimura et al., 2010b;a)或進行理論分析(Azar et al., 2012;Lattimore&Hutter, 2012)。相比之下,我們認為價值分布在強化學習中起着核心作用。

 

Contraction of the policy evaluation Bellman operator. 根據Rösler(1992)的結果,我們表明,對於固定策略,價值分布的Bellman算子是Wasserstein(也稱為Kantorovich或Mallows)度量的最大形式的壓縮。我們對度量的特定選擇很重要:同一算子不是總變化量,Kullback-Leibler散度或Kolmogorov距離的壓縮。

 

Instability in the control setting. 與策略評估案例相比,我們將證明Bellman最優方程的分布版本不穩定。具體而言,盡管最優算子是期望價值的壓縮(與通常的最優結果匹配),但它並不是分布上任何度量的壓縮。這些結果提供了支持對非平穩策略的影響進行建模的學習算法的證據。

 

Better approximations. 從算法的角度來看,學習近似分布而不是近似期望有很多好處。分布Bellman算子保留了價值分布的多模態,我們相信這會導致更穩定的學習。逼近全部分布還可以減輕從非平穩策略中學習的影響。整體而言,我們認為這種方法使近似強化學習的行為表現得更好。

  我們將在Arcade學習環境(Bellemare et al. 2013)的背景下說明分布視角的實際好處。通過對DQN智能體(Mnih et al., 2015)中的價值分布進行建模,我們在基准Atari 2600游戲的整個范圍內獲得了顯著的性能提高,並且實際上在許多游戲上都達到了最先進的性能。我們的結果與Veness et al.(2015)的結果相呼應,他通過預測蒙特卡洛的回報獲得了極其快速的學習。
  從監督學習的角度來看,學習完整的價值分布似乎是顯而易見的:為什么將自己限制在均值?當然,主要區別在於在我們的環境中沒有給定的目標。取而代之的是,我們使用Bellman方程使學習過程易於處理。正如Sutton&Barto(1998)所說,我們必須“從猜測中學習猜測”。我們相信,這種猜測最終帶來的好處多於成本。

 

2. Setting

  我們考慮一個智能體以一種標准的方式與環境進行交互:在每個步驟中,智能體都會根據其當前狀態選擇一個動作,環境會以獎勵和下一個狀態對此動作做出響應。我們將此交互建模為時間同質的馬爾可夫決策過程(X, A, R, P, γ)。通常,X和A分別是狀態空間和動作空間,P是轉換內核P(· | x, a),γ∈[0, 1]是折扣因子,R是獎勵函數,在本文中,我們將其明確視為隨機變量。固定策略π將每個狀態x∈X映射到動作空間A上的概率分布。

 

2.1. Bellman's Equations

  回報Zπ是沿着智能體與環境互動的軌跡所獲得的折扣獎勵的總和。策略π的價值函數Qπ描述了從狀態x∈X采取動作a∈A,然后根據π獲得的期望回報:

  強化學習的基礎是使用Bellman方程(Bellman, 1957)來描述價值函數:

  在強化學習中,我們通常感興趣的是采取動作使回報最大化。最常見的方法是使用最優方程:

  該方程具有唯一的不動點Q*,即最優價值函數,對應於最優策略集π*(當時,π*是最優的)。

  我們將價值函數視為中的向量,並將期望獎勵函數也視為這樣的向量。在這種情況下,Bellman算子Tπ和最優算子T如下:

  這些算子非常有用,因為它們描述了流行的學習算法(例如SARSA和Q-Learning)的期望行為。特別地,它們都是壓縮映射,並且它們在某些初始Q0上的重復應用分別以指數形式收斂到Qπ或Q*(Bertsekas&Tsitsiklis, 1996)。

 

3. The Distributional Bellman Operators

  在本文中,我們去掉了Bellman方程內的期望,而是考慮隨機變量Zπ的完整分布。從這里開始,我們將Zπ視為狀態-動作對到回報分布的映射,並將其稱為價值分布。
  我們的第一個目標是要了解Bellman算子的分布模擬的理論行為,尤其是在不太容易理解的控制環境中。對算法貢獻嚴格感興趣的讀者可以選擇跳過此部分。

 

3.1. Distributional Equations

  分布方程表示隨機變量U根據與V相同的密度分布。在不失一般性的前提下,讀者可以將分布方程的兩側理解為與兩個獨立隨機變量的分布相關。分布方程已被Engel et al.(2005);Morimura(2010a)用於強化學習以及White(1988)的運籌學。

 

注:inf:下確界;ess sup(essential supermum,本質上確界):https://blog.csdn.net/qianhen123/article/details/41845837

 

3.2. The Wasserstein Metric

  我們進行分析的主要工具是累積分布函數之間的Wasserstein度量dp(例如,參見Bickel&Freedman, 1981,在此稱為Mallows度量)。對於F,G在實數上的兩個累積分布函數,其定義為:

其中,對所有分別具有累積分布F和G的隨機變量對(U, V)求下確界。通過隨機變量U的逆累積分布函數變換獲得的下確界均勻分布在[0, 1]中:

對於p < ∞,這可以更明確地寫為:

  給定兩個隨機變量U,V,其累計分布函數為FU,FV,我們將其寫作dp(U, V) := dp(FU, FV)。我們會發現將考慮下的隨機變量與其在下確界中的版本進行合並很方便,寫作:

當其是明確的;我們認為,更大的可讀性證明了技術上的不准確性。最后,我們使用相應的Lp范數將此度量擴展到隨機變量的向量,例如價值分布。
  考慮一個標量a和一個與U,V獨立的隨機變量A。度量dp具有以下屬性:

  我們將需要以下額外屬性,該屬性不對其變量進行獨立假設。附錄中給出了它的證明以及以后的結果。

 

3.3. Policy Evaluation

  在策略評估設置中(Sutton&Barto, 1998),我們對與給定策略相關聯的價值函數Vπ感興趣。這里的類似物是價值分布Zπ。在本節中,我們表征Zπ並研究策略評估算子Tπ的行為。我們強調,Zπ描述的是智能體與其環境互動的固有隨機性,而不是某種程度的環境本身不確定性。
  我們將獎勵函數視為隨機向量,並定義了轉換算子

盡管Tπ與通常的Bellman算子(2)具有表面相似之處,但本質上是不同的。特別地,隨機性的三個來源定義了復合分布TπZ:

  1. 獎勵R中的隨機性;
  2. 轉換Pπ中的隨機性;
  3. 下一個狀態-價值分布Z(X', A')。

特別是,我們通常假設這三個量是獨立的。在本節中,我們將顯示(5)是一個壓縮映射,其唯一不動點是隨機回報Zπ

 

3.3.1. CONTRACTION IN 

 

3.3.2. CONTRACTION IN CENTERED MOMENTS

 

3.4. Control

  到目前為止,我們已經考慮了固定策略π,並研究了其關聯算子Tπ的行為。現在,我們着手了解控制設置的分布算子——我們在其中尋求最大價值的策略π——以及最優價值分布的相應概念。與最優價值函數一樣,該概念與最優策略緊密相關。但是,盡管所有最優策略都獲得相同的價值Q*,但在我們的案例中卻出現了一個困難:通常存在許多最優價值分布。
  在本節中,我們表明Bellman最優算子的分布類似物在較弱的意義上收斂於最優價值分布的集合。但是,此算子在分布之間的任何度量上都不是壓縮,並且通常比策略評估算子更加反復無常。我們認為,我們在此處概述的收斂性問題是貪婪更新固有的不穩定性的征兆,例如,Tsitsiklis(2002)和最近的Harutyunyan et al.(2016)。

  令π*為最優策略集。我們首先描述最優價值分布的含義。

 

4. Approximate Distributional Learning

  在本節中,我們提出一種基於分布Bellman最優算子的算法。特別是,這需要選擇一個近似分布。盡管以前曾考慮過高斯案例(Morimuraet al., 2010a;Tamar et al., 2016),但據我們所知,我們是第一個使用豐富的參數分布類的人。

 

4.1. Parametric Distribution

  我們使用利用參數化的離散分布,對價值分布進行建模,其中支持(support)是原子(atom)集。從某種意義上說,這些原子是我們分布的“規范回報”。原子概率由參數模型給出:

離散分布的優點是高度表達和計算友好(例如參見Van den Oord et al., 2016)。

 

4.2. Projected Bellman Update

  使用離散分布會帶來一個問題:Bellman更新TZθ和我們的參數化Zθ幾乎總是具有不相交的支持。從第3節的分析來看,將TZθ與Zθ之間的Wasserstein度量(視為損失)最小化似乎是很自然的,方便地解決支持差異。但是,第二個問題阻止了這種情況:在實踐中,我們通常僅限於從樣本轉換中學習,這在Wasserstein損失下是不可能的(請參閱附錄5和toy結果)。 

  取而代之的是,我們將樣本Bellman更新投影到Zθ的支持上(圖1,算法1),有效地將Bellman更新減少到多類別分類。令π為關於的貪婪策略。給定樣本轉換(x, a, r, x'),對於每一個原子 zj 我們計算Bellman更新,然后將其概率分配給的直接鄰居。投影更新的第 i 個組成部分為:

其中將其參數限制在[a, b]。1和往常一樣,我們將下一狀態分布視為由固定參數參數化。樣本損失是KL散度的交叉熵項:

這很容易被最小化,例如,使用梯度下降。我們稱這種分布和損失的選擇為分類算法。當N = 2時,一個簡單的單參數替代為;我們稱其為伯努利算法。我們注意到,盡管這些算法似乎與Wasserstein度量無關,但最近的工作(Bellemare et al., 2017)暗示了更深的聯系。

1算法1以N為單位的時間線性計算這個投影。

 

1算法1以N為單位的線性時間計算此投影。 

 

5. Evaluation on Atari 2600 Games

  為了理解復雜環境下的方法,我們將分類算法應用於街機學習環境中的游戲(ALE;Bellemare等人,2013)。雖然ALE是確定性的,但隨機性確實存在於許多方面:1)來自狀態混疊,2)從非平穩策略學習,以及3)從近似誤差。我們使用了5個訓練游戲(圖3)和52個測試游戲。 

  對於我們的研究,我們使用DQN架構(Mnih et al., 2015),但是輸出原子概率pi(x, a)而不是動作-價值,並從訓練游戲的初步實驗中選擇VMAX = -VMIN = 10 。我們稱結果架構為分類DQN。用Lx,a(θ)代替平方損失,並訓練網絡以最小化此損失。2與DQN中一樣,我們對期望動作-價值使用簡單的ε-貪婪策略;我們將智能體可以基於全部分布選擇動作的許多方式留作未來的工作。我們其余的訓練方式與Mnih et al.相同,包括對使用目標網絡。

  圖4展示了我們在實驗中觀察到的典型價值分布。在此示例中,三個動作(包括按下按鈕的動作)導致智能體過早釋放其激光並最終導致游戲失敗。相應的分布反映了這一點:它們為0(最終價值)分配了顯著的概率。安全動作的分布類似(跟蹤入侵者運動的LEFT稍占優勢)。這個例子可以解釋為什么我們的方法如此成功:分布更新將低價值的“失敗”事件與高價值的“生存”事件分開,而不是將它們平均為一個(無法實現的)期望。3

  一個令人驚訝的事實是,盡管ALE具有確定性,但分布並不集中於一個或兩個價值,而是通常接近於高斯分布。我們認為這是由於我們離散化了由γ引起的擴散過程。

 

2對於N = 51, 我們的Tensorflow實現的訓練速度是DQN的75%。
3視頻: http://youtu.be/yFBwyPuO2Vg.

 

5.1. Varying the Number of Atoms

  我們首先研究了算法在訓練游戲中與原子數有關的性能(圖3)。對於本實驗,我們將ε設置為0.05。從數據中可以清楚地看出,使用太少的原子會導致不良的行為,並且更經常地會提高性能。這並不是立即顯而易見的,因為我們可能期望飽和網絡容量。51原子版本與DQN之間在性能上的差異特別引人注目:后者在所有五款游戲中均表現出色,在SEAQUEST中,我們獲得了最先進的性能。作為比較的另一點,在5個游戲中有3個游戲,單參數Bernoulli算法的性能優於DQN,並且在ASTERIX中最顯著。 

  該實驗的一個有趣結果是發現我們的方法確實提高了隨機性。PONG具有內在的隨機性:獎勵的確切時機取決於內部寄存器,實際上是不可觀察的。我們在智能體的預測中清楚地看到了這一點(圖5):在五個連續的幀中,價值分布顯示了兩種模式,表明智能體認為自己尚未獲得獎勵。有趣的是,由於智能體的狀態不包括過去的獎勵,因此在獲得獎勵后甚至無法消除預測,從而解釋了模式的相對比例。

 

5.2. State-of-the-Art Results

  上一節介紹的51原子智能體(從此處開始,C51)在訓練游戲中的表現特別出色,因為它不涉及最新智能體中的其他算法思想。接下來,我們詢問合並最常見的超參數選擇(即較小的訓練ε)是否可以帶來更好的結果。具體來說,我們設置ε = 0.01(而不是0.05);此外,每100萬幀,我們以ε = 0.001評估智能體的性能。
  我們將我們的算法與DQN(ε = 0.01),雙重DQN(van Hasselt et al., 2016),對偶結構(Wang et al., 2016)和優先回放(Schaul et al., 2016)進行了比較, 比較訓練期間取得的最優評估分數。我們看到C51明顯優於其他算法(圖6和7)。實際上,C51在許多游戲中(尤其是SEAQUEST)大大超越了當前的最新技術水平。一個特別引人注目的事實是該算法在稀疏獎勵游戲(例如VENTURE和PRIVATE EYE)上的良好性能。這表明價值分布能夠更好地傳播很少發生的事件。完整的結果在附錄中提供。
  我們還在附錄中(圖12)包括了一個比較,該比較取3個種子的均值,顯示出C51的訓練性能勝過完全訓練的DQN和人類玩家的比賽次數。這些結果繼續顯示出巨大的進步,並且更能代表智能體的平均性能。在五千萬個幀中,C51在57場比賽中有45場的性能優於訓練有素的DQN智能體。這表明,對於評估ALE中的強化學習算法而言,不需要完整的2億個訓練框架及其后續的計算成本。

  最新版的ALE包含旨在防止軌跡過擬合的隨機執行機制。具體而言,在每一幀上,環境都會以p = 0.25的概率拒絕智能體的選定動作。盡管DQN在隨機執行方面大多數情況下都很健壯,但在某些游戲中DQN的性能有所下降。在針對隨機和DQN智能體進行歸一化的評分尺度上,C51得到的平均和中位數評分分別提高了126%和21.5%,這證實了C51在確定性設置之外的優勢。

 

6. Discussion

  在這項工作中,我們尋求了更完整的強化學習圖片,其中涉及價值分布。我們發現學習價值分布是一個強大的概念,它使我們無需進行進一步的算法調整即可超越以前在Atari 2600上獲得的最大收益。

 

6.1. Why does learning a distribution matter?

  令人驚訝的是,當我們使用旨在最大化期望回報的策略時,我們應該看到性能方面的任何差異。我們希望做出的區別是,學習分布在存在近似的情況下很重要。現在,我們概述一些可能的原因。

 

Reduced chattering. 我們在第3.4節中的結果強調了Bellman最優算子的顯著不穩定性。當與函數逼近結合使用時,這種不穩定性可能會阻止策略收斂,Gordon(1995)稱之為chattering。我們認為,基於梯度的分類算法能夠通過有效地平均不同的分布來減輕這些影響,類似於保守的策略迭代(Kakade&Langford, 2002)。雖然chattering持續存在,但它已集成到近似解決方案中。

 

State aliasing. 即使在確定性環境中,狀態混疊也可能導致有效的隨機性。例如,McCallum(1995)指出了在部分可觀察的領域中將表示學習與策略學習結合起來的重要性。我們看到了PONG中的狀態混疊示例,其中智能體無法准確預測獎勵時間。再次,通過顯式建模結果分布,我們提供了更穩定的學習目標。

 

A richer set of predictions. 人工智能中反復出現的主題是從多種預測中學習智能體的想法(Caruana, 1997; Utgoff&Stracuzzi, 2002; Sutton et al., 2011; Jaderberg et al., 2017)。分布方法自然為我們提供了豐富的輔助預測集,即:回報具有特定價值的概率。但是,與以前提出的方法不同,這些預測的准確性與智能體的性能緊密相關。

 

Framework for inductive bias. 強化學習的分布觀點提供了一個更自然的框架,我們可以在該框架內對領域或學習問題本身進行假設。在這項工作中,我們使用支持被限制在[VMIN, VMAX]中的分布。將這種支持視為超參數,可以讓我們通過將所有極值回報(例如大於VMAX)視為等價物來更改優化問題。令人驚訝的是,DQN中類似的價值裁剪明顯降低了大多數游戲的性能。再舉一個例子:正如一些作者所論證的那樣,將折扣因子解釋為適當的概率會導致產生不同的算法。

 

Well-behaved optimization. 公認的是,分類分布之間的KL散度是一個很容易使損失最小化的損失。這可以解釋我們的一些經驗表現。然而,早期關於替代損失的實驗(例如連續密度之間的KL散度)並未取得成果,部分原因是KL散度對其結果的價值不敏感。與我們在此給出的結果相比,更緊密地最小化Wasserstein度量應該會產生更好的結果。

  最后,我們認為我們的結果強調了需要考慮算法設計中理論或其他方面的分布。

 

A. Related Work

  據我們所知,最接近我們的工作是兩篇論文(Morimura et al., 2010b;a),從累積分布函數的角度研究了分布Bellman方程。作者提出了參數和非參數解決方案,以學習風險敏感型強化學習的分布。他們還為策略評估設置提供了一些理論分析,包括非參數情況下的一致性結果。相比之下,我們還分析了控制設置,並強調了使用分布方程來改善近似強化學習。
  在風險敏感的情況下,對回報的方差進行了廣泛的研究。值得注意的是,Tamar et al.(2016)分析了使用線性函數逼近法來學習該方差以進行策略評估,而Prashanth&Ghavamzadeh(2013)估計了風險敏感的執行者-評論者算法設計中的回報方差。Mannor&Tsitsiklis(2011)提供了關於最優控制問題的方差約束解的計算的負面結果。
  建模不確定性時也會出現分布方程。Dearden et al.(1998)考慮了對價值分布的高斯近似,並使用正態伽馬先驗模型對該近似的參數的不確定性進行建模。Engel eet al.(2005)利用分布Bellman方程來定義未知價值函數上的高斯過程。最近,Geist&Pietquin(2010)提出了基於無跡Kalman濾波器的相同問題的替代解決方案。我們相信,我們在此處提供的許多分析方法都可以處理不確定性,這些分析涉及環境的固有隨機性。

  我們在這里的工作基於許多基礎結果,尤其是關於替代最優標准。早些時候,Jaquette(1973)指出,可以實現一個矩最優准則,該准則將總體排序強加於分布,並定義了平穩的最優策略,與定理1的第二部分相呼應。通常將Sobel(1982)作為回報的較高矩(而不是分布)的Bellman方程的第一參考。Chung&Sobel(1987)提供了有關總變化距離中分布Bellman算子收斂性的結果。White(1988)從優化狀態對狀態-動作對占用的角度研究了“非標准MDP標准”。
  近年來,已經提出了許多用於強化學習的概率框架。作為推理的規划方法(Toussaint&Storkey, 2006;Hoffman et al., 2009)將回報嵌入圖形模型,並應用概率推理來確定導致最大期望獎勵的動作順序。Wang et al.(2008)考慮了強化學習的對偶表述,其中一個優化了平穩分布,它受轉換函數給定的約束(Puterman, 1994),特別是它與線性逼近的關系。與此相關的是壓縮和控制算法Veness et al.(2015),它通過使用密度模型學習回報分布來描述價值函數。這項工作的目的之一是解決他們的工作是否懸而未決的問題,即是否可以基於Bellman方程而不是Monte Carlo估計來設計一種實用的分布算法。

 

B. Proofs

 

C. Algorithmic Details

  雖然我們的訓練機制非常接近DQN(Mnih et al., 2015),但我們使用Adam(Kingma&Ba, 2015)而不是RMSProp(Tieleman&Hinton, 2012)進行梯度縮放。我們還為最終結果執行了一些超參數調整。具體來說,我們在五個訓練游戲中評估了兩個超參數,然后選擇效果最佳的價值。我們考慮的超參數價值為VMAX ∈ {3, 10, 100},且εadam ∈ {1/L, 0.1/L, 0.01/L, 0.001/L, 0.0001/L},其中L = 32是最小批大小。我們發現VMAX = 10且adam = 0.01/L表現最佳。我們使用與DQN(α= 0.00025)相同的步長值。
  算法1中給出了分類算法的偽代碼。我們將Bellman更新分別應用於每個原子,然后將其投影到原始支持中的兩個最接近的原子中。用γt = 0處理到終止狀態的轉換。

 

D. Comparison of Sampled Wasserstein Loss and Categorical Projection
  引理3證明,對於固定策略,分布Bellman算子在中是γ-壓縮,因此Tπ將在分布中收斂到回報Zπ的真實分布。在本節中,我們在圖11所示的CliffWalk域上經驗地驗證這些結果。問題的動態與Sutton&Barto(1998)給出的動態相匹配。我們還研究了樣本Wasserstein損失和分類投影(等式7)下的分布Bellman算子的收斂性,采用試圖采取安全路徑但有10%的機會均勻隨機采取動作的策略。

  我們使用來自每個狀態的10000個蒙特卡洛(MC)展開來計算回報Zπ的真實分布。然后,我們執行兩個實驗,分別用離散分布近似每個狀態下的價值分布。
  在第一個實驗中,我們使用Wasserstein損失或具有交叉熵損失的分類投影(等式7)進行監督學習。 我們使用Zπ作為監督目標,並對所有狀態執行5000次掃描,以確保兩種方法都收斂。在第二個實驗中,我們使用相同的損失函數,但訓練目標來自具有采樣轉換的單步分布Bellman算子。我們使用VMIN = -100,VMAX = -1。4對於樣本更新,我們對狀態空間執行10倍的掃描次數。從根本上講,這些實驗研究了兩種訓練方式(最小化Wasserstein或類別損失)在理想(監督目標)和實際(采樣的一步式Bellman目標)條件下將Wasserstein度量最小化的程度。

  在圖10a中,我們顯示了隨着我們改變原子數,在學習的分布和真實分布之間的最終Wasserstein距離d1(Zπ, Zθ)。該圖顯示,分類算法確實在監督和樣本Bellman設置中確實最小化了Wasserstein度量。它還強調指出,用隨機梯度下降來最小化Wasserstein損失通常是有缺陷的,這證實了命題5的直覺。在重復實驗中,該過程收斂於d1(Zπ, Zθ)的不同值,表明存在局部最小值 (原子越少越普遍)。
  圖10提供了更多有關為何采樣的Wasserstein距離性能可能較差的見解。在這里,我們看到了沿着CliffWalk的安全路徑對五個不同狀態在這兩個損失下獲得的近似價值的累積密度。Wasserstein已經收斂到一個不動點分布,但是沒有一個能夠很好地捕獲真實的(蒙特卡洛)分布。相比之下,分類算法可以更准確地捕獲真實分布的方差。

 

4由於存在較大的負回報的可能性很小,因此不可避免會有一些近似誤差。但是,在我們的實驗中,這種影響相對可以忽略不計。

 

E. Supplemental Videos and Results

  在圖13中,我們提供了指向補充視頻的鏈接,這些視頻顯示了在各種Atari 2600游戲中進行訓練期間的C51智能體。圖12顯示了C51在訓練過程中的相對性能。圖14提供了一個評估結果表,將C51與其他先進智能體進行了比較。圖15–18描繪了特別有趣的幀。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM