鄭重聲明:原文參見標題,如有侵權,請聯系作者,將會撤銷發布!
ICLR 2020
ABSTRACT
本文介紹了Meta-Q-Learning (MQL),這是一種用於元強化學習(meta-RL)的新的異策算法。MQL基於三個簡單的想法。首先,我們表明,如果可以訪問表示過去軌跡的上下文變量,則Q學習將與最新的元RL算法相當。其次,在訓練任務中最大化多任務目標的平均獎勵是對RL策略進行元訓練的有效方法。第三,元訓練經驗緩存中的過去數據可以被回收,以使策略適用於新任務。MQL借鑒了傾向估計中的想法,從而擴大了用於適應的可用數據量。在標准連續控制基准上進行的實驗表明,MQL與元RL中的最新技術相比具有優勢。
1 INTRODUCTION
強化學習(RL)算法在模擬數據上表現出良好的性能。然而,將這種性能賦予真實機器人面臨兩個主要挑戰:(1) 機器人的復雜性和脆弱性阻礙了廣泛的數據收集;(2) 機器人面臨的真實環境可能不同於它被訓練的模擬環境。這推動了元RL的研究,在大量不同環境(如模擬環境)中開發"元訓練"算法,旨在用少量數據來適應新環境。
如今元RL的研究情況如何?圖1顯示了兩種典型的元RL算法在4個標准連續控制基准測試中的性能。1我們將它們與下列簡單基准進行了比較:一個異策RL算法(TD3, Fujimoto et al. (2018b)),並對其進行了訓練,以使所有訓練任務的平均獎勵最大化,並對其進行了修改,以使用代表軌跡的"上下文變量"。此圖中的所有算法都使用相同的評估協議。令人驚訝的是,這種簡單的基於非元學習的方法與最新的元RL算法相比具有競爭優勢。這是論文的第一個貢獻:證明沒有必要為了在現有的基准測試中表現良好而使用元訓練策略。
第二個貢獻是建立在上述結果基礎上,提出一種稱為"元Q學習"(MQL)的異策元RL算法。MQL使用簡單的元訓練過程:經過異策更新,最大化所有元訓練任務的平均獎勵以獲得:
其中 是對從任務
獲得的轉換
進行評估的目標。例如,單步TD誤差將設置為
。這個目標被稱為多任務目標,是最簡單的元訓練形式。
為了使策略適應新任務,MQL從元訓練回放緩存中采樣與新任務中類似的轉換。這會擴充可用於自適應的數據量,但由於較大的潛在偏差,很難做到這一點。使用傾向性估計文獻中的技術來執行此適應,而MQL的異策更新對執行此適應至關重要。MQL的自適應階段解決:
2 BACKGROUND
2.1 META-REINFORCEMENT LEARNING (META-RL)
2.2 LOGISTIC REGRESSION FOR ESTIMATING THE PROPENSITY SCORE
3 MQL
3.1 META-TRAINING
3.1.1 DESIGNING CONTEXT
3.2 ADAPTATION TO A NEW TASK
4 EXPERIMENTS
4.1 SETUP
4.2 RESULTS
4.3 ABLATION EXPERIMENTS
4.4 RELATED WORK
5 DISCUSSION
A PSEUDO-CODE
B OUT-OF-DISTRIBUTION TASKS
C MORE ABLATION STUDIES
D HYPER-PARAMETERS AND MORE DETAILS OF THE EMPIRICAL RESULTS