RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning

本文轉載自查看原文 2020-09-06 16:32 606 元學習/ 強化學習

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！

ICLR 2017

ABSTRACT

　　深度RL已經成功地自動學習了復雜的行為。但是，學習過程需要大量的試驗。相比之下，動物可以通過幾次試驗而學習新的任務，這得益於它們對世界的了解。本文力圖彌合這一差距。與其設計一種"快速"的RL算法，不如將其表示為RNN並從數據中學習。在我們提出的方法RL²中，該算法以RNN的權重進行編碼，這些權重是通過通用("慢速")RL算法緩慢學習的。RNN接收典型RL算法將接收的所有信息，包括觀察，動作，獎勵和終止標志；並且在給定的馬爾可夫決策過程(MDP)中跨回合保留其狀態。RNN的激活將"快速"RL算法的狀態存儲在當前(以前未見過)的MDP上。我們在小規模和大規模問題上通過實驗評估RL²。在小規模方面，我們訓練它來解決隨機生成的多臂賭博機問題和有限的MDP。訓練完RL²后，它在新MDP上的性能接近人工設計的算法，並具有最優性保證。在大規模方面，我們在基於視覺的導航任務上對RL²進行了測試，並表明它可以擴展到高維問題。

1 INTRODUCTION

　　近年來，深度RL取得了許多令人印象深刻的結果，包括從原始像素玩Atari游戲(Guo et al., 2014; Mnih et al., 2015; Schulman et al., 2015)，並獲得了先進的操縱和移動技能(Levine et al., 2016; Lillicrap et al., 2015; Watter et al., 2015; Heess et al., 2015; Schulman et al., 2015; 2016)。但是，許多成功是以高樣本復雜性為代價的。例如，最新的Atari結果需要每個游戲數以萬計的經驗回合(Mnih et al., 2015)。要掌握一款游戲，你需要花費近40天的時間不停地玩游戲。相比之下，人類和動物在極少數的試驗中就能夠學習新任務。繼續前面的示例，Mnih et al. (2015)中的人類角色只需要2個小時的經驗即可掌握游戲。我們認為，這種強烈對比的原因主要是由於缺乏良好的先驗，這導致這些深度RL智能體需要從頭開始重建它們對世界的了解。

　　盡管貝葉斯RL為將先驗知識整合到學習過程中提供了堅實的框架(Strens, 2000; Ghavamzadeh et al., 2015; Kolter＆Ng, 2009)，但貝葉斯更新的精確計算在除最簡單的情況以外的所有條件下都是棘手的。因此，實用的RL算法通常將貝葉斯和特定領域的思想相結合，以降低樣本的復雜性和計算負擔。值得注意的例子包括動態未知的指導性策略搜索(Levine and Abbeel, 2014)和PILCO (Deisenroth and Rasmussen, 2011)。這些方法可以使用幾分鍾到幾小時的實際經驗來學習任務，而以前的方法則需要幾天甚至幾周(Schulman et al., 2015; 2016; Lillicrap et al., 2015)。但是，這些方法傾向於對環境進行假設(例如，在學習時使用儀器來訪問狀態)，或者在高維環境中變得難以計算(Wahlström et al., 2015)。

　　與手動設計特定領域的RL算法不同，本文采用了另一種方法：我們將智能體本身的學習過程視為目標，可以使用標准RL算法對其進行優化。該目標是根據特定分布在所有可能的MDP上平均的，這反映了我們想提煉到智能體中的先驗條件。我們將主體構造為RNN，除了正常接收到的觀察結果外，該網絡還接收過去的獎勵，動作和終止標志作為輸入。此外，其內部狀態在各個回合之間得以保留，因此它具有以自身隱含激活進行學習的能力。因此，學到的智能體也充當學習算法，並且在部署時可以適應手頭的任務。

　　我們對兩組經典問題(多臂賭博機和表格式MDP)進行評估。這些問題已被廣泛研究，並且存在實現漸近最優性能的算法。我們證明了名為RL²的方法可以實現與這些理論上合理的算法相當的性能。接下來，我們在使用ViZDoom環境實現的基於視覺的導航任務上評估RL²(Kempka et al., 2016)，表明RL²也可以擴展到高維問題。

2 METHOD

2.1 PRELIMINARIES

2.2 FORMULATION

　　現在，我們描述我們的公式，該公式將學習RL算法視為一種RL問題，因此命名為RL²。我們假設知道一組MDP，用M表示，並且其上的分布ρ_M：M → R₊。我們只需要從這個分布中采樣。我們使用n表示允許在特定MDP上花費的回合總數。我們將試驗定義為與固定MDP的一系列交互回合。

　　智能體與環境之間的交互過程如圖1所示。這里，每個試驗恰好由兩個回合組成，因此n =2。對於每個試驗，從ρ_M抽取一個單獨的MDP，對於每個回合，從特定於相應MDP的初始狀態分布中抽取一個新的s₀。在接收到由智能體產生的動作時，環境計算獎勵r_t，前向計算下一個狀態s_t+1。如果回合已終止，則會將終止標志d_t設置為1，否則默認為0。將下一個狀態s_t+1，動作a_t，獎勵r_t和終止標志d_t組合在一起，形成策略的輸入¹，它以隱含狀態h_t+1為條件，生成下一個隱含狀態h_t+2和動作a_t+1。在回合結束時，策略的隱含狀態將保留到下一個回合，但不會在兩次試驗之間保留。

　　此公式下的目標是在單個試驗而不是單個回合中最大化期望的總折扣獎勵。最大化這一目標等同於最小化累積偽遺憾(Bubeck＆Cesa-Bianchi, 2012)。由於基礎MDP在整個試驗中都會發生變化，因此只要不同的MDP需要不同的策略，智能體就必須根據其對當前所使用的MDP的信念采取不同的動作。因此，智能體被迫整合已收到的所有信息，包括過去的動作，獎勵和終止標志，並不斷調整其策略。因此，我們建立了一個端到端的優化過程，在該過程中，鼓勵智能體學習"快速"的RL算法。

　　為了闡明清楚，我們將"內部"問題(智能體在每個試驗中都看到n個問題)定義為MDP而不是POMDP。但是，該方法也可以在部分觀察的情況下應用，而無需進行任何概念上的更改。在部分觀察的設置中，智能體面對一系列POMDP，並且在時間 t 接收觀察o_t而不是狀態s_t。3.3節中的視覺導航實驗實際上是此POMDP設置的一個實例。

¹ 為確保輸入的維度一致，我們將占位符值用作策略的初始輸入。

2.3 POLICY REPRESENTATION

　　我們將策略表示為一般的RNN。每個時間步驟都接收元組(s, a, r, d)作為輸入，使用函數Φ(s, a, r, d)嵌入該元組並將其作為輸入提供給RNN。為了減輕由於梯度消失和爆炸而導致的難以訓練RNN的問題(Bengio et al., 1994)，我們使用門控循環單元(GRU)(Cho et al., 2014)，已證明具有良好的經驗性能(Chung et al., 2014; Józefowicz et al., 2015)。GRU的輸出被饋送到全連接層，然后是softmax函數，該函數形成動作上的分布。

　　我們還嘗試了替代結構，該結構顯式重置了采樣的MDP的每個回合的部分隱含狀態，但沒有發現對上述簡單結構的任何改進。

2.4 POLICY OPTIMIZATION

　　將任務表述為RL問題后，我們可以輕松地使用標准的現成RL算法來優化策略。我們使用信任域策略優化(TRPO)的一階實現(Schulman et al., 2015)，因為它具有出色的經驗性能，並且不需要過多的超參數調整。有關更多詳細信息，請參見原始論文。為了減少隨機梯度估計中的方差，我們使用一個基准，該基准也表示為使用GRU作為構建基塊的RNN。我們可以選擇應用廣義優勢估計(GAE)(Schulman et al., 2016)來進一步減少方差。

3 EVALUATION

　　我們設計了實驗來回答以下問題：

相對於文獻中提出的針對這種結構量身定制的現有算法，RL²是否可以學習在具有特殊結構的MDP類上實現性能良好的算法？
RL²是否可以擴展到高維任務？

　　對於第一個問題，我們在兩組任務(多臂賭博機(MAB)和表格式MDP)上評估RL²。這些問題已在RL文獻中得到了廣泛的研究，並且本文的工作內容包括具有漸近最優性保證的算法。我們證明了我們的方法可以達到與這些理論上合理的算法相當的性能。

　　對於第二個問題，我們在基於視覺的導航任務上評估RL²。我們的實驗表明，學到的策略可以有效地利用學到的視覺信息以及從先前回合中獲得的短期信息。

3.1 MULTI-ARMED BANDITS

　　多臂賭博機問題是一個MDP的子集(其中智能體環境為無狀態)。具體來說，有k個臂(動作)，並且在每個時間步驟，智能體拉動其中一個臂，例如 i，並接收從未知分布中抽取的獎勵：我們的實驗將每個臂設為參數為p_i的伯努利分布。目標是最大化在固定數量的時間步驟上獲得的總獎勵。關鍵的挑戰是平衡探索與開發之間的關系——"探索"每個臂足夠的次數以估計其分布(p_i)，但最終切換到最優臂的"開發"。盡管多臂賭博機問題很簡單，但他們的研究產生了豐富的理論和一系列具有最優性保證的算法。

　　使用RL²，我們可以通過在給定分布ρ_M上訓練RNN策略來解決賭博機問題。如果學習成功，則所產生的策略應能夠與理論上最優的算法相比。我們通過從[0, 1]上的均勻分布中采樣每個參數p_i來隨機產生賭博機問題。在使用RL²訓練RNN策略之后，我們將其與以下策略進行了比較：

　　貝葉斯方法(Gittins指數和Thompson采樣)利用分布ρ_M；並且我們為這些方法提供了真實分布。對於具有超參數的每種方法，我們通過對每個實驗設置進行單獨的網格搜索來最大化得分。附錄中顯示了用於TRPO的超參數。

　　結果總結在表1中。各種設置的學習曲線如圖2所示。我們觀察到，我們的方法所達到的性能幾乎與參考方法一樣好，而參考方法是專門為在多臂賭博機問題上表現出色而(人為)設計的。值得注意的是，已發布的算法主要是為了最大程度地減少漸近遺憾(而不是有限時間范圍遺憾)而設計的，因此在有限時間范圍設置中仍有一些可以勝過它們的空間。

　　我們觀察到，在最具挑戰性的情況下，Gittins指數與RL²之間存在明顯差距，共有50個臂和500個回合。這就提出了一個問題，即應該探索更好的架構還是更好的(慢速)RL算法。為了確定瓶頸，我們使用監督學習來訓練相同的策略結構，並使用Gittins指數方法生成的軌跡作為訓練數據。我們發現，在測試域中執行后，學到的策略可以達到與Gittins指數方法相同的性能水平，這表明使用更好的RL算法仍有改進的余地。

3.2 TABULAR MDPS

3.3 VISUAL NAVIGATION

4 RELATED WORK

　　過去已經以各種形式探討了使用先驗經驗來加快RL算法的概念。早期的研究以元學習的形式研究了諸如學習率和溫度之類超參數的自動調整(Ishii et al., 2002; Schweighofer＆Doya, 2003)。Wilson et al. (2007)使用分層貝葉斯方法來維持后驗動態的可能模型，並根據后驗應用樂觀的Thompson采樣。分層RL中的許多工作提出從以前的任務中提取可重用的技能，以加快在新任務中的探索(Singh, 1992; Perkins et al., 1999)。我們請讀者參考Taylor＆Stone (2009)，以更全面地了解多任務和遷移學習方面。

　　最近，Fu et al. (2015)提出了一種基於iLQG的有模型方法，該模型具有未知的動態特性(Levine & Abbeel, 2014)，該方法使用從先前任務中收集的樣本在動態之前構建了一個神經網絡，並且可以在新的相關任務上進行one-shot學習(為了減少樣本的復雜性)。使用深度神經網絡進行多任務學習和遷移學習的興趣日益濃厚(Parisotto et al., 2015; Rusu et al., 2015; 2016a; Devin et al., 2016; Rusu et al., 2016b)。

　　在更廣泛的機器學習環境中，人們對目標分類的one-shot學習有很大的興趣(Vilalta＆Drissi, 2002; Fei-Fei et al., 2006; Larochelle et al., 2008; Lake et al., 2011; Koch, 2015)。我們的工作從特定的工作中汲取了靈感(Younger et al., 2001; Santoro et al., 2016; Vinyals et al., 2016)，該方法將元學習公式化為優化問題，因此可以通過梯度下降進行端到端的優化。這些工作適用於監督學習設置，而我們的工作適用於更一般的RL設置。盡管RL設置更具挑戰性，但最終的行為卻更加豐富：我們的智能體不僅必須學習利用現有信息，還必須學習探索，這通常不是監督學習中的一個問題。另一項工作(Hochreiter et al., 2001; Younger et al., 2001; Andrychowicz et al., 2016; Li＆Malik, 2016)研究了優化過程中的元學習。在那里，元學習器對參數化模型進行顯式更新。相比之下，我們不使用直接參數化的策略。相反，RNN智能體同時充當元學習器和生成的策略。

　　我們的智能體實質上構成了部分可觀察的MDP(POMDP)，該MDP在外環中得以解決，在該外環中，潛在的MDP未被智能體觀察到。這種將未知MDP還原為POMDP的過程可以追溯到雙重控制理論(Feldbaum, 1960)，其中"雙重"是指人們既控制狀態又控制狀態估計。Feldbaum指出，原則上可以通過動態編程來計算解決方案，但是這樣做通常是不切實際的。具有這種結構的POMDP也已經以"混合可觀察性MDP"的名稱進行了研究(Ong et al., 2010)。然而，那里提出的方法面臨解決高維POMDP的常規挑戰。

5 DISCUSSION

　　本文提出了一種設計更好的RL算法的不同方法：與其按照自己的設計者采取動作，不如使用標准RL技術來端對端地學習算法。也就是說，"快速"RL算法是一種狀態存儲在RNN激活中的計算，而RNN的權重是通過通用的"慢速"RL算法來學習的。我們的方法RL²已證明在小規模環境下具有與理論上最優算法相比的能力。我們進一步展示了其擴展到高維任務的潛力。

　　在實驗中，我們發現了改進RL²的機會：外環RL算法被證明是一個立即的瓶頸，並且我們認為，對於具有極長時間范圍的設置，該策略可能還需要更好的結構。盡管我們為外環算法和策略使用了通用的方法和結構，但是這樣做也忽略了基礎的回合結構。我們期望利用問題結構的算法和策略結構來顯著提高性能。

APPENDIX

A DETAILED EXPERIMENT SETUP

　　所有實驗的共同點：如2.2節所述，必要時我們使用占位符值。例如，在t = 0時，沒有先前的動作，獎勵或終止標志。由於我們所有的實驗都使用離散動作，因此我們將動作0的嵌入用作動作的占位符，將0用於獎勵和終止標志。為了形成對GRU的輸入，我們按原樣使用獎勵和終止標志的值，並按照下面分別針對每個實驗所述的方式嵌入狀態和動作。然后將這些值連接在一起以形成聯合嵌入。
　　對於神經網絡架構，我們在整個實驗過程中都使用ReLU作為隱含激活，並且對所有權重矩陣應用去除數據依賴初始化的權重歸一化(Salimans＆Kingma, 2016)。隱含到隱含的權重矩陣使用正交初始化(Saxe et al., 2013)，所有其他權重矩陣都使用Xavier初始化(Glorot＆Bengio, 2010)。我們將所有偏差向量都初始化為0。除非另有說明，否則策略和基准將使用具有相同結構的獨立神經網絡，直到最后一層，其中輸出數量有所不同。
　　所有實驗均使用TensorFlow (Abadi et al., 2016)和rllab (Duan et al., 2016)實現。我們使用TabulaRL軟件包提供的經典算法的實現(Osband, 2016)。

A.1 MULTI-ARMED BANDITS

　　表1中顯示了TRPO的參數。由於環境是無狀態的，因此我們使用常數嵌入0作為占位符來代替狀態，並對動作進行one-hot嵌入。

A.2 TABULAR MDPS

A.3 VISUAL NAVIGATION

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。