Meta-Q-Learning

本文轉載自查看原文 2020-09-08 23:04 434 元學習/ 強化學習

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！

ICLR 2020

ABSTRACT

　　本文介紹了Meta-Q-Learning (MQL)，這是一種用於元強化學習(meta-RL)的新的異策算法。MQL基於三個簡單的想法。首先，我們表明，如果可以訪問表示過去軌跡的上下文變量，則Q學習將與最新的元RL算法相當。其次，在訓練任務中最大化多任務目標的平均獎勵是對RL策略進行元訓練的有效方法。第三，元訓練經驗緩存中的過去數據可以被回收，以使策略適用於新任務。MQL借鑒了傾向估計中的想法，從而擴大了用於適應的可用數據量。在標准連續控制基准上進行的實驗表明，MQL與元RL中的最新技術相比具有優勢。

1 INTRODUCTION

　　強化學習(RL)算法在模擬數據上表現出良好的性能。然而，將這種性能賦予真實機器人面臨兩個主要挑戰：(1) 機器人的復雜性和脆弱性阻礙了廣泛的數據收集；(2) 機器人面臨的真實環境可能不同於它被訓練的模擬環境。這推動了元RL的研究，在大量不同環境(如模擬環境)中開發"元訓練"算法，旨在用少量數據來適應新環境。

　　如今元RL的研究情況如何？圖1顯示了兩種典型的元RL算法在4個標准連續控制基准測試中的性能。¹我們將它們與下列簡單基准進行了比較：一個異策RL算法(TD3, Fujimoto et al. (2018b))，並對其進行了訓練，以使所有訓練任務的平均獎勵最大化，並對其進行了修改，以使用代表軌跡的"上下文變量"。此圖中的所有算法都使用相同的評估協議。令人驚訝的是，這種簡單的基於非元學習的方法與最新的元RL算法相比具有競爭優勢。這是論文的第一個貢獻：證明沒有必要為了在現有的基准測試中表現良好而使用元訓練策略。

　　第二個貢獻是建立在上述結果基礎上，提出一種稱為"元Q學習"(MQL)的異策元RL算法。MQL使用簡單的元訓練過程：經過異策更新，最大化所有元訓練任務的平均獎勵以獲得：