Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

本文轉載自查看原文 2020-09-08 23:40 624 元學習/ 強化學習

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！

arXiv: Learning, (2019)

Abstract

　　深度RL算法需要大量經驗才能學習單個任務。原則上，元強化學習(meta-RL)算法使智能體能夠從少量經驗中學習新技能，但一些主要挑戰阻礙了它們的實用性。當前的方法嚴重依賴於同策經驗，從而限制了其采樣效率。在適應新任務時，也缺乏推斷任務不確定性的機制，從而限制了它們在稀疏獎勵問題中的有效性。在本文中，我們通過開發一種異策元RL算法來解決這些挑戰，該算法可以分離任務推斷和控制。在我們的方法中，我們對隱任務變量執行在線概率濾波，以從少量經驗中推斷出如何解決新任務。這種概率解釋可以進行后驗采樣，以進行結構化且有效的探索。我們演示了如何將這些任務變量與異策RL算法集成在一起，以實現高效元訓練與適應。在幾個元RL基准測試中，我們的方法在樣本效率和漸近性能方面都比以前的算法好20-100倍。

1. Introduction

　　RL與強大的非線性函數近似的結合，導致了序列決策問題的廣泛發展。但是，常規的RL方法針對每個任務學習單獨的策略，每種方法通常需要與環境進行數百萬次交互。用這種方法快速學習大量的行為內容變得令人望而卻步。幸運的是，我們希望我們的自主性智能體解決許多共同結構的問題。例如，擰緊瓶蓋和轉動門把手都需要抓住手中的物體並旋轉手腕。利用這種結構來更快地學習新任務仍然是一個開放且緊迫的話題。元學習方法通過利用跨任務分布收集的大量經驗，從經驗中學習這種結構。一旦掌握了這些經驗，這些方法就可以迅速適應新任務。

　　雖然元學習策略僅需進行幾次試驗即可適應新任務，但在訓練期間，它們需要從大量不同任務中提取大量數據，從而加劇了困擾RL算法的樣本效率問題。當前的大多數元RL方法在元訓練和適應過程中都需要同策數據(Finn et al., 2017; Wang et al., 2016; Duan et al., 2016; Mishra et al., 2018; Rothfuss et al., 2018; Houthooft et al., 2018)，這使得它們在元訓練期間效率極低。然而，將異策數據用於元RL帶來了新的挑戰。元學習通常基於元訓練時間應與元測試時間相匹配的原則進行操作——例如，對通過五個示例進行圖像分類測試的圖像分類元學習器進行元訓練，需要接受五個示例的集合並產生准確的預測(Vinyals et al., 2016)。這使得利用異策數據對策略進行元訓練存在固有的困難，這與策略在元測試時間探索(同策)新任務時看到的數據存在系統性差異。

　　在本文中，我們解決了有效的異策元RL問題。為了實現高效元訓練和快速適應性，我們提出了一種將概率上下文變量的在線推斷與現有的異策RL算法集成的方法。快速適應需要對分布進行推斷：當首次接觸新任務時，最優的元學習策略必須執行隨機探索過程以訪問潛在獎勵狀態，並適應手頭的任務(Gupta et al., 2018)。在元訓練期間，我們將學習一個概率編碼器，該編碼器從先前經驗中收集必要的統計信息，並將其累積到上下文變量中，使得策略可以執行任務。在元測試時間，當智能體面臨未知任務時，可以在回合持續時間內對上下文變量進行采樣並使其保持不變，從而可以進行時間擴展的探索。所收集的軌跡用於更新上下文變量的后驗，從而實現快速的軌跡級適應。實際上，我們的方法通過對"任務假設"進行采樣，嘗試執行這些任務，然后評估這些假設是否正確來進行調整。將任務推斷從動作中解脫出來，使我們的方法特別適合於異策元學習；可以使用異策數據優化策略，同時使用同策數據來訓練概率編碼器，以最小化元訓練和元測試之間的分布不匹配。

　　我們工作的主要貢獻是一種異策元RL算法，稱為概率嵌入actor-critic RL(PEARL)。我們的方法在元訓練期間實現了出色的樣本效率，通過在線積累經驗來實現快速適應，並通過推斷任務的不確定性來進行結構化探索。在我們的實驗評估中，我們證明了最新的結果，在六個連續控制的元學習環境中，元訓練樣本效率提高了20-100倍，漸近性能大大提高。我們進一步研究了我們的模型如何進行結構化探索，以在稀疏獎勵的二維導航環境中快速適應新任務。我們的PEARL開源實現可以在https://github.com/katerakelly/oyster中找到。

2. Related Work

　　Meta-learning. 在RL的背景下，我們的工作建立在元學習框架(Schmidhuber, 1987; Bengio et al., 1990; Thrun＆Pratt, 1998)上。最近，已經為元學習動態模型(Nagabandi et al., 2019; Sæmundsson et al., 2018)和策略(Finn et al., 2017; Duan et al., 2016; Mishra et al., 2018)開發了元RL方法，可以快速適應新任務。

　　循環(Duan et al., 2016; Wang et al., 2016)和遞歸(Mishra et al., 2018)元RL方法通過將經驗匯聚為策略所依托的隱表征來適應新任務。這些方法可以歸類為我們稱為基於上下文的元RL方法，因為訓練了神經網絡以將經驗作為輸入作為任務特定上下文的一種形式。同樣，我們的方法也可以被認為是基於上下文的。但是，我們用概率隱變量表示任務上下文，從而可以對任務不確定性進行推斷。我們不使用循環，而是利用置換不變編碼器中的Markov屬性來匯聚經驗，從而實現快速優化(尤其是針對長時間步驟任務)，同時減少過擬合。盡管先前的工作已經研究了可以通過異策Q學習方法訓練循環Q函數的方法，但此類方法通常已應用於更簡單的任務(Heess et al., 2015)和離散環境(Hausknecht＆Stone, 2015)。確實，我們在6.3節中進行的實驗表明，很難將循環策略與異策學習相結合。通過將策略依托於演示的一個學到的嵌入，並通過行為克隆進行優化，上下文方法也已應用於模仿學習(Duan et al., 2017; James et al., 2018)。

　　與基於上下文的方法相反，基於梯度的元RL方法使用策略梯度從匯聚到的經驗中學習(Finn et al., 2017; Stadie et al., 2018; Rothfuss et al., 2018; Xu et al., 2018a)，元學習到的損失函數(Sung et al., 2017; Houthooft et al., 2018)或超參數(Xu et al., 2018b)。這些方法側重於同策元學習。相反，我們專注於從異策數據進行元學習，將這與基於策略梯度和進化優化算法的方法結合是有意義的。除了大幅提高樣本效率外，我們還實證發現，與使用策略梯度的方法相比，基於上下文的方法能夠達到更高的漸近性能。

　　在RL之外，針對小樣本監督學習問題的元學習方法探索了各種各樣的方法和結構(Santoro et al., 2016; Vinyals et al., 2016; Ravi＆Larochelle, 2017; Oreshkin et al., 2018)。我們的置換不變式嵌入函數受原型網絡的嵌入函數啟發(Snell et al., 2017)。當他們在學習的確定性嵌入空間中使用距離度量對新輸入進行分類時，我們的嵌入是概率性的，用於確定RL智能體的行為。據我們所知，沒有任何先前的工作提出過針對元RL的特定嵌入函數。

Probabilistic meta-learning. 先前的工作已經將概率模型應用於監督和RL領域的元學習。多層貝葉斯模型已被用於建模小樣本學習(Fei-Fei et al., 2003; Tenenbaum, 1999)，包括執行基於梯度的適應的方法(Grant et al., 2018; Yoon et al., 2018)。對於監督學習，Rusu et al. (2019); Gordon et al. (2019); Finn et al. (2018)使用通過攤銷近似推斷來推斷出概率隱任務變量來適應模型預測。我們將此想法擴展到異策元RL。在RL的背景下，Hausman et al. (2018)也對推斷的任務變量設定了條件，但目的是通過嵌入空間組成任務，而我們專注於快速適應新任務。在我們推斷任務變量並通過后驗采樣進行探索的同時，MAESN(Gupta et al., 2018)通過優化具有梯度下降的任務變量進行適應，並通過先驗采樣進行探索。

Posterior sampling. 在經典RL中，后驗采樣(Strens, 2000; Osband et al., 2013)在可能的MDP上保持后驗，並通過根據采樣的MDP采取最優動作來進行時間擴展探索。我們的方法可以解釋為該方法的元學習變體。概率上下文捕獲了任務的當前不確定性，從而允許智能體以類似的結構方式探索新任務。

Partially observed MDPs. 通過將任務作為狀態的未觀察部分，可以將元RL中測試時間的適應視為POMDP中RL的一種特殊情況(Kaelbling et al., 1998)。我們使用與Igl et al. (2018)相關的變體方法來評估對任務的信心。當他們專注於解決通用的POMDP時，我們利用元學習問題強加的額外結構來簡化推斷，並使用后驗采樣進行新任務的探索。

3. Problem Statement

　　我們的方法受到智能體可以利用先前任務的各種經驗來快速適應即將出現的新任務的啟發。樣本效率對於我們的問題陳述至關重要，無論是先前經驗的樣本數量(元訓練效率)，還是新任務所需的經驗數量(適應效率)。為了達到高效元訓練，我們在我們的方法中利用了異策RL。高效適應要求智能體推斷其對任務的不確定性，尤其是在稀疏獎勵設置中。為了捕獲我們對任務的信念的不確定性，我們學習了先前經驗的概率隱表征。我們在本節中將問題陳述形式化，在第4節中將我們的適應方法表述為概率推斷，並在第5節中說明如何將我們的方法與異策RL算法集成。

　　與以前的元RL公式類似，我們假設一個任務的分布p(T)，其中每個任務是一個馬爾可夫決策過程(MDP)，由狀態，動作，轉換函數和有界獎勵函數的集合組成。我們假設轉換和獎勵函數是未知的，但是可以通過在環境中執行動作來進行采樣。形式上，任務T = {p(s₀), p(s_t+1|s_t, a_t), r(s_t, a_t)}由初始狀態分布p(s₀)，轉換分布p(s_t+1|s_t, a_t)和獎勵函數r(s_t, a_t)組成。請注意，此問題定義涵蓋了具有可變轉換函數(例如，具有不同動態的機器人)和可變獎勵函數(例如，導航到不同位置)的任務分布。給定一組從p(T)采樣的訓練任務，元訓練過程通過以先前轉換的歷史為條件來學習適應當前任務的策略，我們將其稱為上下文c。令是任務T中的一個轉換，因此包含了迄今為止收集的經驗。在測試時，策略必須適應從p(T)提取的新任務。

4. Probabilistic Latent Context

　　我們捕獲有關如何在隱概率上下文變量Z中執行當前任務的知識，在該變量上我們將策略設置為π_θ(a|s, z)，以使其行為適應任務。元訓練包括利用來自各種訓練任務的數據來學會從新任務的最新經驗歷史中推斷出Z值，以及優化策略來解決任務(給定Z的后驗樣本)。在本節中，我們描述了元訓練推斷機制的結構。我們將在第5節中介紹如何使用異策RL算法執行元訓練。

4.1. Modeling and Learning Latent Contexts

　　為了實現適應，隱上下文Z必須對有關任務的顯著信息進行編碼。回想一下包含了迄今為止收集的經驗；在本節中，為簡單起見，我們通常會寫作c。我們采用攤銷變分推斷方法(Kingma＆Welling, 2014; Rezende et al., 2014; Alemi et al., 2016)來學會推斷Z。我們訓練了一個由Φ參數化的推斷網絡q_Φ(z|c)來估計后驗p(z|c)。在生成方法中，這可以通過優化q_Φ(z|c)重建MDP(通過學習獎勵和動態的預測模型)來實現。或者，可以以無模型的方式優化q_Φ(z|c)，以對狀態-動作價值函數進行建模或通過任務分布中的策略最大化回報。假設此目標為對數似然，則產生的變分下界為：

如上所述，其中p(z)是Z上的單位高斯先驗，而R(T, z)可能是多種目標。KL散度項也可以被解釋為約束Z和c之間互信息的信息瓶頸的變分近似結果(Alemi et al., 2016)。直觀地，此瓶頸將z約束為僅包含來自上下文的信息，這些信息對於適應當前任務是必需的，從而減輕了對訓練任務的過擬合。雖然在元訓練期間優化了q_Φ的參數，但在元測試時間，我們僅從收集的經驗中推斷新任務的隱上下文。

　　在設計推斷網絡q_Φ(z|c)的結構時，我們希望它具有足夠的表現力，以捕獲與任務相關的信息的最小足夠統計，而無需建模無關的依賴項。我們注意到，完全觀察到的MDP的編碼應該是置換不變的：如果我們想推斷任務是什么，識別MDP模型或訓練價值函數，則足以訪問轉換的集合，而不考慮觀察到這些轉換的順序。考慮到這一點，我們選擇q(z|c_1:N)的置換不變表征，並將其建模為獨立因子的乘積：

　　為了使該方法易於處理，我們使用高斯因子，這導致了高斯后驗。由f_Φ表示的神經網絡由Φ參數化，用於預測均值µ和方差σ作為c_n的函數，如圖1所示。

4.2. Posterior Sampling and Exploration via Latent Contexts

　　將隱上下文建模為概率模型，使我們可以利用后驗采樣在元測試時間進行有效的探索。在經典RL中，后驗采樣(Strens, 2000; Osband et al., 2013)從MDP上的先驗分布開始，根據迄今為止的經驗計算后驗分布，並在回合期間針對采樣的MDP執行最優策略，作為探索的有效方法。特別是，根據隨機MDP進行最優動作可以進行時間擴展(或深度)探索，這意味着即使動作的結果不能立即說明任務，智能體也可以采取動作來檢驗假設。

　　在單任務深度RL設置中，Osband et al. (2016)探索了后驗采樣和深度探索的好處，它通過自舉保持了價值函數的近似后驗。相比之下，我們的方法PEARL直接推斷隱上下文Z上的后驗，如果對重構進行優化，則可能對MDP本身進行編碼；如果對策略進行優化，則可能對最優行動進行編碼；如果對critic進行優化，則可能對價值函數進行編碼。我們的元訓練過程利用訓練任務來學習Z的先驗知識，該先驗知識可以捕獲任務的分布情況，還可以學習有效地利用經驗來推斷新任務。在元測試時間，我們首先從先驗中采樣z並根據每個z執行一個回合，從而以時間擴展且多樣化的方式進行探索。然后，我們可以利用所收集的經驗來更新后驗，並繼續進行連貫的探索，其方式類似於我們的后驗采樣，隨着我們的信念變窄，其動作越來越優化。

5. Off-Policy Meta-Reinforcement Learning

　　盡管我們的概率上下文模型可以輕松地與同策的策略梯度方法結合使用，但我們工作的主要目標是實現高效的異策元RL，其中元訓練和快速適應需要的樣本數量最少。在先前的工作中，元訓練過程的效率在很大程度上被忽略，它使用了穩定但效率相對較低的同策算法(Duan et al., 2016; Finn et al., 2017; Gupta et al., 2018; Mishra et al., 2018)。但是，設計異策元RL算法並非易事，部分原因是現代元學習是基於這樣的假設：用於適應的數據分布將在元訓練和元測試之間匹配。在RL中，這意味着由於在元測試時將使用同策數據進行適應，因此在元訓練期間也應使用同策數據。此外，元RL需要策略來推斷分布，以學習有效的隨機探索策略。此問題固有地無法通過最小化TD誤差的異策RL方法來解決，因為它們沒有能力直接針對訪問的狀態分布進行優化。相反，策略梯度方法可以直接控制策略所采取的動作。鑒於這兩個挑戰，將元學習和基於價值的RL相結合的幼稚方法可能無效。實際上，我們無法優化這種方法。

　　我們在第4節中使用概率上下文設計異策的元RL方法的主要見解是，用於訓練編碼器的數據不必與用於訓練策略的數據相同。該策略可以將上下文z視為異策RL環中狀態的一部分，而探索過程的隨機性由編碼器q(z|c)中的不確定性提供。始終使用從整個回放緩存B采樣的異策數據來訓練actor和critic。我們定義了一個采樣器S_c來采樣上下文批次以訓練編碼器。允許S_c從整個緩存采樣會導致與同策測試數據的分布不匹配太極端。但是，上下文不必嚴格同策。我們發現，從最近收集的數據的回放緩存中采樣的中間策略能夠以更高的效率保留同策性能。我們在圖2和算法1中總結了訓練過程。元測試在算法2中進行了描述。

5.1. Implementation

　　我們在soft actor-critic算法(SAC)(Haarnoja et al., 2018)的基礎上構建算法，這是一種基於最大熵RL目標的異策actor-critic方法，該方法以策略的熵增加了折扣回報的傳統總和。

　　SAC表現出良好的采樣效率和穩定性，並且還具有與概率隱上下文能夠很好集成的概率解釋。我們使用重參數化技巧(Kingma＆Welling, 2014)來優化推斷網絡q(z|c)的參數以及actor π_θ(a|s, z)和critic Q_θ(s, a, z)的參數，通過采樣的z為q_Φ(z|c)的參數計算梯度。我們使用來自Bellman更新的梯度為critic訓練推斷網絡。我們實證發現，訓練編碼器以恢復狀態-動作價值函數優於對其進行優化以最大化actor回報或重建狀態和獎勵。critic損失可以寫成：

其中是目標網絡，表示沒有通過它計算梯度。actor損失幾乎與SAC相同，還額外依賴於z作為策略輸入。

　　請注意，用於推斷q_Φ(z|c)的上下文不同於用於構造critic損失的數據。如第5節所述，在元訓練期間，我們將上下文批次與RL批次分開采樣。具體地，上下文數據采樣器S_c從最近收集的一批數據中均勻采樣，每1000個元訓練優化步驟重新收集一次。actor和critic利用從整個回放緩存中均勻抽取的一批轉換進行訓練。

6. Experiments

　　在我們的實驗中，我們評估了該方法的性能並分析了其性能。我們首先在第6.1節中的幾個基准元RL問題上將我們的方法與現有元RL方法進行比較評估(特別是在樣本效率方面)。我們在第6.2節中的稀疏獎勵設置中研究了概率上下文和后驗采樣如何通過結構化探索策略實現快速適應。最后，在6.3節中，我們通過消融評估了算法中的特定設計選擇。

6.1. Sample Efficiency and Performance

Experimental setup. 我們通過MuJoCo模擬器(Todorov et al., 2012)對圍繞機器人運動的六個連續控制環境進行了PEARL評估。這些運動任務系列需要在獎勵函數(Half-Cheetah-Fwd-Back, Ant-Fwd-Back, Humanoid Direc-2D這四者的運動方向, Half-Cheetah-Vel的目標速度以及Ant-Goal-2D的目標位置)或者動態(Walker-2D-Params的隨機系統參數)之間進行調整。這些元RL基准先前是由Finn et al. (2017)和Rothfuss et al. (2018)引入的。所有任務的時間步驟長度均為200。我們使用公開代碼與現有的策略梯度元RL方法ProMP(Rothfuss et al., 2018)和MAML-TRPO(Finn et al., 2017)進行比較。我們還使用PPO(Schulman et al., 2017)重新實現了基於循環的策略梯度RL²方法(Duan et al., 2016)。每個算法的結果在三個隨機種子中取均值。我們嘗試使循環DDPG(Heess et al., 2015)適應我們的環境，但無法通過這種方法獲得合理的結果。我們假設這是由於多種因素的組合，包括第5節中討論的適應數據中的分布不匹配以及使用軌跡而不是去相關的轉換進行訓練的難度。這種方法並未像我們一樣明確推斷出對任務的信念，而是將任務推斷和最優行為的負擔留給了RNN。在PEARL中，從策略中解耦任務推斷使我們可以自由選擇最適合異策學習的編碼器數據和目標。在第6.3節中，我們將在我們自己的方法中嘗試使用循環架構。

Results. 為了評估元測試任務，我們在軌跡級別執行適應，在該級別上，第一個軌跡是使用從先驗r(z)采樣的上下文變量z收集的。隨后的軌跡使用z ~ q(z|c)收集，其中上下文在所有收集的軌跡上匯聚。為了計算最終的測試時間性能，我們報告了在將兩條軌跡匯聚到上下文中之后收集的軌跡的平均回報。值得注意的是，我們發現RL²在這些基准上的性能比以前報告的要好得多，這可能是由於使用PPO進行了優化並選擇了更好的超參數。我們觀察到，就漸近性能和樣本效率而言，PEARL在所有領域中的性能均明顯優於先前的元RL方法，如圖3所示。在這里，我們在PEARL收斂所需的時間步驟數處截斷了x軸；有關該圖的完整時間尺度版本，請參見附錄A。我們發現，與以前的元RL方法相比，PEARL在元訓練期間使用的樣本減少了20-100倍，同時在六個域中的五個域中將最終漸近性能提高了50-100％。

6.2. Posterior Sampling For Exploration

　　在本節中，我們評估模型中的后驗采樣是否能夠在稀疏獎勵MDP中啟用有效的探索策略。直觀地，通過從先驗上下文分布r(z)中采樣，智能體根據之前看到的訓練任務的分布對假設進行采樣。當智能體在環境中采取動作時，上下文后驗p(z|c)會更新，從而允許其根據多個假設進行推斷來確定任務。我們通過2-D導航任務演示了此行為，在該任務中，點機器人必須導航到半圓邊緣上的不同目標位置。我們對訓練和測試任務集進行采樣，每個任務包含100個隨機采樣的目標。僅當智能體在目標的特定半徑內時才給予獎勵。我們用半徑0.2和0.8進行實驗。雖然我們的目標是適應具有稀疏獎勵的新任務，但是具有稀疏獎勵的元訓練非常困難，因為這相當於從頭解決許多稀疏獎勵任務。因此，為簡單起見，我們假設在元訓練期間可以使用密集獎勵，就像Gupta et al. (2018)所做的那樣，但也可以通過與任務無關的探索策略來減輕這種負擔。

　　在這種設置下，我們與MAESN(Gupta et al., 2018)進行了比較，MAESN是一種也可以對概率任務變量進行建模並執行同策且基於梯度的元學習的現有方法。我們證明了我們能夠以更少的軌跡適應新的稀疏目標。即使樣本較少，PEARL在最終性能方面也優於MAESN。在圖4中，我們比較了測試任務的適應性能。除了獲得更高的回報和更快地適應之外，PEARL在元訓練期間也更加高效。我們的結果是使用~10⁶時間步驟實現的，而MAESN是使用~10⁸時間步驟實現的。

6.3. Ablations

　　在本節中，我們將去除我們方法的特征，以更好地理解我們方法的顯著特征。

Inference network architecture. 我們通過將隱上下文Z的置換不變編碼器與編碼MDP的常規選擇(用於編碼MDP的循環網絡)(Duan et al., 2016; Heess et al., 2015)進行比較來檢查我們的選擇。請注意，盡管在第6.1節中我們考慮了基於循環的基准，類似於循環DDPG(Heess et al., 2015)，但此處我們保留了方法的所有其他特征，僅去除了編碼器結構。我們將RNN反向傳播至100個時間步驟。我們將上下文采樣為完整軌跡，而不是像PEARL中那樣的無序轉換。我們嘗試了兩種方法來采樣RL批次：

像PEARL一樣的無序轉換("RNN tran")
軌跡集("RNN traj")

　　在圖5中，我們比較了Half-Cheetah-Vel域中測試任務的性能與元訓練樣本數量的關系。用RNN代替我們的編碼器可產生與PEARL相當的性能，但代價是優化速度較慢。但是，RL批次的采樣軌跡會導致性能急劇下降。該結果證明了將用於RL目標的樣本去相關的重要性。

Data sampling strategies. 在我們的下一個實驗中，我們將消除訓練期間使用的上下文采樣策略。借助采樣器S_c，PEARL可以對無序轉換進行批采樣，這些無序轉換(1)被限制為該策略最近收集的樣本，並且(2)與RL小批量采樣器收集的轉換集不同。我們考慮S_c的兩個其他選擇：

從整個回放緩存中采樣完全異策的數據，但與RL批次不同("off-policy")
使用與上下文相同的異策RL批次("off-policy RL-batch")

　　結果如圖6所示。采樣上下文異策會嚴重影響性能。在這種情況下，對RL和上下文使用相同的批次會有所幫助，也許是因為相關性使學習變得更容易。總體而言，這些結果證明了異策元RL中謹慎進行數據采樣的重要性。

Deterministic context. 最后，我們研究了將隱上下文建模為概率的重要性。如第4節所述，我們假設概率上下文在稀疏獎勵設置中特別重要，因為它允許智能體對任務的分布進行建模並通過后驗采樣進行探索。為了進行實證檢驗，我們通過將分布q_Φ(z|c)減小到點估計值來訓練PEARL的確定性版本。我們在圖7的稀疏導航域上比較了概率和確定性上下文。由於隱上下文變量中沒有隨機性，所以唯一的隨機性來自策略，因此是時不變的，從而阻礙了時間擴展的探索。作為結果，這種方法無法解決稀疏的獎勵導航任務。

7. Conclusion

　　在本文中，我們提出了一種新穎的元RL算法(PEARL)，該算法通過對以策略為條件的隱上下文變量進行推斷來進行自適應。我們的方法特別適合於異策RL算法，因為它解耦了推斷任務的問題並解決了它，允許異策元訓練，同時最小化訓練和測試上下文分布之間的不匹配。將上下文建模為概率模型可以在測試時進行后驗采樣以進行探索，從而在時間上擴展探索行為以提高適應效率。與以前的元RL算法相比，我們的方法可獲得更好的結果，並且在一系列連續控制元RL域上所需的經驗要少得多。

A. Experimental Details

　　同策的基准方法需要更多樣本來學習基准任務。在這里，我們為圖9中的基准所使用的全部時間步驟數繪制了與圖3相同的數據。圖8中顯示了在這些連續控制域中使用的智能體。在這里，我們描述了每個元學習域。

Half-Cheetah-Dir：向前和向后移動(2個任務)
Half-Cheetah-Vel：實現向前奔跑的目標速度(100個訓練任務，30個測試任務)
Humanoid-Dir-2D：在2D網格上向目標方向運動(100個訓練任務，30個測試任務)
Ant-Fwd-Back：向前和向后移動(2個任務)
Ant-Goal-2D：導航到2D網格上的目標位置(100個訓練任務，30個測試任務)
Walker-2D-Params：智能體初始化時隨機分配了一些系統動態參數，並且必須向前移動(40個訓練任務，10個測試任務)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。