Learning to Reinforcement Learn

本文轉載自查看原文 2020-08-30 21:48 934 元學習/ 強化學習/ 類腦智能

鄭重聲明：原文參見標題，如有侵權，請聯系作者，將會撤銷發布！

CogSci, (2017)

ABSTRACT

　　近年來，深度RL系統在許多具有挑戰性的任務領域中都獲得了超出人類的性能。但是，此類應用的主要局限性在於它們對大量訓練數據的需求。因此，當前的一個關鍵目標是開發能夠快速適應新任務的深度RL方法。在當前的工作中，我們介紹了應對這一挑戰的新穎方法，我們將其稱為深度元RL。先前的工作表明，循環網絡可以在完全受監督的上下文中支持元學習。我們將此方法擴展到RL設置。出現的是使用一種RL算法訓練的系統，但其循環動態實現了第二個非常獨立的RL程序。第二個學習到的RL算法可以在任意方面與原始算法不同。重要的是，由於它是被學習的，因此將其配置為利用訓練域中的結構。我們通過一系列七個概念驗證實驗來解開這些問題，每個實驗都檢驗了深度元RL的關鍵方面。我們考慮了擴展與擴大該方法的前景，並指出了對神經科學潛在的重要意義。

1 INTRODUCTION

　　最新的進展使得RL方法得以擴展到Atari (Mnih et al., 2015)和Go (Silver et al., 2016)這樣復雜且大規模的任務環境中。關鍵的突破是技術的發展，該技術可以通過深度學習(LeCun et al., 2015; Mnih et al., 2015)將RL與非線性函數近似進行穩定集成。由此產生的深度RL方法在越來越多的域中達到了人類甚至超出人類水平的性能(Jaderberg et al., 2016; Mnih et al., 2015; Silver et al., 2016)。但是，它們至少明顯缺少人類性能的兩個方面。首先，深度RL通常需要大量的訓練數據，而人類學習者只需很少的經驗就可以在各種各樣的任務中獲得合理的性能。其次，深度RL系統通常專注於一個受限的任務領域，而人類學習者可以靈活地適應不斷變化的任務條件。最近的批評(例如Lake et al., 2016)將這些差異稱為對當前深度RL研究的直接挑戰。

　　在當前的工作中，我們概述了應對這些挑戰的框架，我們將其稱為深度元RL，旨在將其與以前的工作聯系在一起並與使用“元RL”一詞的工作(例如，Schmidhuber et al., 1996; Schweighofer and Doya, 2003，稍后討論)區分開來。關鍵概念是使用標准深度RL技術來訓練RNN，以使循環網絡開始實現自己的獨立RL程序。正如我們將說明的那樣，在適當的情況下，次級學習到的RL程序可以顯示原始RL程序所缺乏的適應性和樣本效率。

　　以下各節回顧了在元學習中采用RNN的先前工作，並描述了將此類方法擴展到RL設置的一般方法。然后，我們提出了七個概念驗證實驗，每個實驗都通過根據此框架刻畫智能體性能來強調深度元RL設置的重要分支。最后，我們討論了下一步研究的主要挑戰以及對神經科學的潛在影響。

2 METHODS

2.1 BACKGROUND: META-LEARNING IN RECURRENT NEURAL NETWORKS

　　靈活且高效的數據學習自然需要先驗偏差的操作。概括地說，這種偏差可以來自兩個方面。它們可以被設計到學習系統中(例如，在卷積網絡中)，或者它們本身可以通過學習獲得。在機器學習文獻中，在元學習的主題下探討了第二種情況(Schmidhuber et al., 1996; Thrun and Pratt, 1998)。
　　在一個標准設置中，學習智能體面臨一系列任務，這些任務彼此不同，但也共享一些基本規則。然后，元學習被定義為一種效果，通過這種效果，智能體可以比過去的任務更快地提高其在每個新任務中的性能(Thrun and Pratt, 1998)。在結構層面上，元學習通常被概念化為涉及兩個學習系統：一個較低級別的系統，它學習相對較快，並且主要負責適應每個新任務；較慢的上級系統，該系統可跨任務工作以調整和改進下級系統。

　　在深度學習社區內外，已經探索了各種方法來實現這種基本的元學習設置(Thrun and Pratt, 1998)。這里特別相關的是Hochreiter和同事(Hochreiter et al., 2001)引入的方法，其中使用標准的反向傳播對一系列相關任務訓練RNN。其設置的關鍵方面是，網絡在任務中的每個步驟上都會接收一個輔助輸入，該輔助輸入指示上一步的目標輸出。例如，在回歸任務中，在每個步驟中，網絡都會收到一個x值作為輸入，希望為其輸出對應的y，但是網絡也會收到一個輸入，該輸入公開了先前步驟的目標y值(參見Hochreiter et al., 2001; Santoro et al., 2016)。在這種情況下，在每個訓練回合中將使用不同的函數來生成數據，但是如果所有函數均來自單個參數族，則系統會逐漸調整為這種一致的結構，從而在整個過程中越來越快地收斂於跨回合的准確輸出。
　　Hochreiter方法的一個有趣方面是，每個新任務中學習的基礎過程完全位於循環網絡的動態范圍內，而不是用於調整網絡權重的反向傳播過程。實際上，在初始訓練期之后，即使權重保持恆定，網絡也可以提高其在新任務上的性能(另請參見Cotter and Conwell, 1990; Prokhorov et al., 2002; Younger et al., 1999)。該方法的第二個重要方面是，在循環網絡中實現的學習過程適合於網絡訓練的跨任務族的結構，並嵌入了一些偏差，使其在處理來自該族的任務時可以有效地學習。

2.2 DEEP META-RL: DEFINITION AND KEY FEATURES

　　重要的是，Hochreiter的原始工作(Hochreiter et al., 2001)及其后續擴展(Cotter and Conwell, 1990; Prokhorov et al., 2002; Santoro et al., 2016; Younger et al., 1999)只涉及了監督學習(即，每個步驟提供的輔助輸入都明確指示了上一步的目標輸出，並且使用明確的目標對網絡進行了訓練)。在當前的工作中，我們考慮在RL的背景下采用相同方法的含義。在這里，構成訓練系列的任務是相互關聯的RL問題，例如，一系列的賭博機問題僅在其參數化方面有所不同。智能體不是將目標輸出作為輔助輸入，而是接收指示上一步動作輸出的輸入，以及關鍵地指示該動作所產生的獎勵量的輸入。相同的獎勵信息與深度RL流程並行提供，該流程可調整循環網絡的權重。

　　我們將這種設置及其結果稱為“深度元RL”(盡管為了簡潔起見，我們通常將其簡稱為“元RL”，對以前使用過該術語的作者表示歉意)。就像在有監督的情況下一樣，當方法成功時，循環網絡的動態將實現一種完全不同於用於訓練網絡權重的學習算法。經過足夠的訓練后，即使權重保持恆定，學習也可以在每個任務中進行。但是，循環網絡在此處執行的過程本身就是一種完善的RL算法，該算法協調了探索與開發的權衡關系，並根據獎勵結果改進了智能體的策略。我們將在下文中強調的一個關鍵點是，該學習到的RL程序可能與用於訓練網絡權重的算法完全不同。特別是，其策略更新過程(包括該過程的有效學習率等特征)可能與調整網絡權重所涉及的策略顯著不同，並且學習到的RL過程可以實現其自身的探索方法。至關重要的是，就像在有監督的情況下一樣，學習的RL過程將適合跨越多任務環境的統計信息，從而使其能夠快速適應新的任務實例。

2.3 FORMALISM

　　讓我們將馬爾可夫決策過程(MDP)的分布(先驗)寫為D。我們想要證明元RL能夠學習先驗相關的RL算法，從某種意義上說，它將在從D或D的微小修改獲得的MDP上平均表現良好。適當結構化的智能體，嵌入RNN，通過回合與一系列MDP環境(也稱為任務)交互來進行訓練。在新回合開始時，對新的MDP任務m～D和該任務的初始狀態進行采樣，並重置智能體的內部狀態(即，其循環單元上的激活模式)。然后，智能體程序將在此環境中執行一定離散時間步驟的動作選擇策略。在每個步驟 t 處，根據在當前回合期間在MDP m中交互的智能體的整個歷史H_t = {x₀, a₀, r₀, ... , x_t-1, a_t-1, r_t-1, x_t}的函數執行動作a_t ∈ A (從回合開始以來觀察到的狀態{x_s}_0≤s≤t，動作{a_s}_0≤s<t和獎勵{r_s}_0≤s<t的集合，當循環單位已重置)。訓練網絡權重使得在所有步驟和回合中觀察到的獎勵總和最大化。
　　訓練后，智能體的策略是固定的(即權重已凍結，但由於環境的輸入和循環層的隱含狀態而導致激活發生變化)，並根據從相同的分布D或對該分布的輕微修改中提取的一組MDP對其進行評估(以測試智能體的泛化能力)。在任何新回合的評估開始時，都會重置內部狀態。由於智能體了解到的策略是歷史相關的(因為它利用循環網絡)，因此當暴露於任何新的MDP環境時，它就能夠適應和部署優化該任務獎勵的策略。

3 EXPERIMENTS

　　為了評估我們剛剛描述的學習方法，我們進行了一系列的六個概念驗證實驗，我們將其與相關論文中最初報道的第七個實驗一起呈現在這里(Mirowski et al., 2016)。在這些實驗中，特別感興趣的一點是，根據任何成熟的RL程序的要求，看看是否可以使用元RL來學習探索與開發之間的自適應平衡。第二個也是更重要的焦點是元RL是否可以通過利用任務結構來提高學習效率。

　　為了檢查這些問題，我們進行了四個針對賭博機任務的實驗，另外兩個針對Markov決策問題的實驗。我們所有的實驗(以及我們報告的其他實驗)都采用了一套通用的方法，但實現上的變化很小。在所有實驗中，主體架構均以RNN (LSTM; Hochreiter and Schmidhuber, 1997)為中心，饋入代表離散動作的soft-max輸出。如下所述，該網絡核心的參數以及其他一些結構的詳細信息在實驗中有所不同(請參見圖1和表1)。但是，必須強調的是，特定結構之間的比較不在本文討論范圍之內。我們的主要目標是以更一般的方式說明和驗證元RL框架。為此，所有實驗都使用前面描述的高級任務設置：訓練和測試都被組織為固定長度的回合，每個回合都涉及從預定任務分布中隨機采樣的任務，並在每個回合開始時初始化LSTM隱含狀態。結合各個實驗描述了特定任務的輸入和動作輸出。除指定的地方外，在所有實驗中，輸入都包括標量，該標量指示在前一個時間步驟上收到的獎勵及其采樣的動作的one-hot表征。

　　所有RL都是使用A2C/A3C算法進行的，詳見Mnih et al. (2016)和Mirowski et al. (2016) (另請參見圖1)。訓練的細節，包括使用熵正則化以及組合的策略和價值估計損失，都緊緊遵循Mirowski et al. (2016)的方法。我們的實驗使用單線程，除非另有說明。有關參數的完整列表，請參見表1。

3.1 BANDIT PROBLEMS

　　作為評估元RL的初始設置，我們研究了一系列賭博機問題。除了一組非常有限的賭博機環境外，計算(先驗依賴的)貝葉斯最優策略是很棘手的。在這里，我們證明，在從給定環境分布中抽取的一組賭博機環境上訓練的循環系統，會產生一個賭博機算法，該算法對從該分布中抽取出來的問題表現良好，並且在一定程度上概括了相關分布。因此，元RL學習了先驗依賴的賭博機算法。
　　第2.3節中描述的一般元RL過程的特定智能體實例定義如下。令D為賭博機環境下的訓練分布。元RL系統通過回合在一系列賭博機環境中進行訓練。在新回合開始時，將重置其LSTM狀態，並對賭博機任務b~D進行采樣。賭博機任務被定義為一組分布(每個臂一個分布)從中抽取獎勵。智能體在這種賭博機環境中進行一定數量的試驗，並受過訓練以使觀察到的獎勵最大化。經過訓練后，將根據從測試分布D'提取的一組賭博機任務對智能體的策略進行評估，該任務既可以與D相同，也可以稍作修改。

　　我們通過累積遺憾評估學習到的賭博機算法的結果性能，累積遺憾衡量了選擇次優臂時遭受的損失(期望獎勵)。μ_a(b)為在賭博機環境b中臂a的期望獎勵，並且μ*(b) = max_aμ_a(b) = μ_a*(b)(b) (其中a*(b)是一個最優臂)為最優期望獎勵，我們將(環境b中的)累積遺憾定義為，其中a_t是 t 時刻選擇的臂(動作)。在實驗4中(不休息的賭博機；第3.1.4節)，也取決於 t。我們以累積遺憾：E_b~D'[R_T(b)]或次優選擇次數：。

3.1.1 BANDITS WITH INDEPENDENT ARMS

　　我們首先考慮一個簡單的雙臂賭博機任務，以在存在理論保證和通用算法的條件下檢查元RL的行為。臂分布是獨立的Bernoulli分布(獎勵為1的概率為p，獎勵為0的概率為1-p)，其中每個臂的參數(p₁和p₂)均在[0, 1]之間獨立均勻采樣。我們用D_i表示在這些獨立的賭博機環境中的相應分布(其中下標 i 代表獨立的臂)。
　　每個回合開始時都會對新的賭博機任務進行采樣，並在100次試驗中保持不變。訓練持續了20000個回合。網絡被給予最后一次獎勵、最后一次采取的動作和試驗編號 t 作為輸入，隨后產生下一次試驗t+1的動作(圖1)。訓練后，我們對300個新回合進行了評估，將學習率設為零(學到的策略是固定的)。

　　在整個模型實例中，我們按照Mnih et al. (2016)的方法隨機采樣學習率和折扣。對於所有圖片，我們繪制了100個隨機采樣的超參數設置的前5次運行的均值，其中從300個評估回合的前半部分中選擇出頂級智能體，並為后半部分繪制了性能。我們比較了針對該獨立賭博機環境量身定制的幾種算法，比較了整個回合的累積期望遺憾：Gittins指數(Gittins, 1979) (在有限水平情況下是貝葉斯最優)，UCB (Auer et al., 2002) (帶有理論上的有限時間遺憾保證)和Thompson采樣(Thompson, 1933) (在這種情況下漸近最優：參見Kaufmann et al., 2012b)。使用(Kaufmann et al., 2012a)的PymaBandits工具箱和自定義的Matlab腳本進行了模型仿真。

　　如圖2a (綠線；"獨立")所示，盡管元RL與Gittins(黑虛線)相比表現不佳，但其性能卻優於Thimpson采樣(灰色虛線)和UCB(淺灰色虛線)。為了驗證向LSTM提供獎勵信息的至關重要性，我們刪除了此輸入，而所有其他輸入都保持不變。不出所料，所有賭博機任務的性能都處於偶然的水平。

3.1.2 BANDITS WITH DEPENDENT ARMS (I)

　　正如我們強調的那樣，元RL的關鍵特性在於它產生了一種學習型RL算法，該算法在訓練分布中利用了一致的結構。為了獲得這一點的經驗證據，我們從第一個實驗中以更結構化的賭博機任務測試了智能體。具體而言，我們在雙臂獎勵分布相關的雙臂賭博機上訓練了該系統。在這種情況下，與上一節研究不同，一只臂的經驗可提供另一只臂的信息。在這種設置下，標准的賭博機算法(包括UCB和Thompson采樣)無法達到最優效果，因為它們並非旨在利用此類相關性。在某些情況下，可以為特定的臂結構量身定制算法(例如，參見Lattimore and Munos, 2014)，但通常需要針對特定問題進行廣泛的分析。我們的方法旨在直接從目標賭博機領域的經驗中學習與結構相關的賭博機算法。

　　我們考慮Bernoulli分布，其中兩個臂的參數(p₁, p₂)在p₁ = 1 - p₂的意義上相關。我們考慮幾種訓練和測試分布。均勻是指p₁~U([0, 1]) (單位間隔內的均勻分布)。簡單意味着p₁~U({0.1, 0.9}) (在這兩個可能的值上均勻分布)，類似地，當p1~U({0.25, 0.75})時，我們稱為中等；當p1~U({0.4, 0.6})時，我們稱為困難。我們用D_u, D_e, D_m和D_h表示賭博機環境中的相應產生的分布。此外，我們還考慮了獨立均勻分布(如上一節中的D_i所示)，其中p1, p2~U([0, 1])且獨立。對智能體進行了有關賭博機環境的這五個分布的訓練和測試(其中四個對應於相關分布：D_u, D_e, D_m和D_h；一個對應於獨立案例：D_i)。作為對分配給任務分布(D_e, D_m, D_h)的名稱的驗證，結果表明，簡單的任務比中等的任務更容易學習，而中等的任務比困難的任務更容易學習(圖2f)。這與普遍的觀點是一致的，即賭博機問題的困難程度與最優和次優臂的期望獎勵之間的差值成反比。我們再次注意到，如預期的那樣，不將獎勵輸入保留給LSTM，甚至在最簡單的賭博機任務上也導致了偶然性能。

　　圖2f報告了所有可能的訓練測試方案的結果。通過觀察累積期望遺憾，我們得出以下觀察結果：i）在結構化環境(D_u, D_e, D_m和D_h)中受過訓練的智能體開發了可以在結構化分布上進行測試時可以有效使用的先驗知識——與Gittins的性能相當(圖2c-f)，並且與在測試中所有結構化任務中接受獨立臂(D_i)訓練的智能體相比具有優勢(圖2f)。這是因為受過獨立獎勵(D_i)訓練的智能體還沒有學會利用在那些結構化任務中有用的獎勵關聯。ii）相反，當在獨立分布上測試智能體時(D_i；圖2f)，先前對任何結構化分布(D_u, D_e, D_m或D_h)的訓練都會損害性能。這是有道理的，因為對依賴臂進行訓練可能會產生依賴於特定獎勵結構的策略，從而影響不存在此類結構的問題中的性能。iii）雖然先前的結果強調了元RL產生了一個單獨的學習RL算法，該算法實現了先驗依賴的賭博機策略，但結果也提供了證據，表明所遇到的確切訓練分布范圍之外還有一些泛化性(圖2f)。例如，在分布更廣泛的結構化分布(即D_u)上進行測試時，在分布D_e和D_m上受過訓練的智能體表現良好。此外，我們的證據表明，從對較簡單任務(D_e, D_m)的訓練到對最難任務的測試(D_h；圖2e)的推廣，與對困難分布D_h本身的訓練相比，具有相似甚至略勝一籌的性能(圖2f)。相反，對困難分布D_h進行訓練會導致對其他結構化分布(D_u, D_e, D_m)的泛化性較差，這表明僅對困難實例進行訓練可能會導致學習的RL算法受到先驗知識的限制更大，這可能是由於解決原始問題的困難性。

3.1.3 BANDITS WITH DEPENDENT ARMS (II)

　　在先前的實驗中，該智能體可以利用學到的雙臂之間的依賴關系勝過標准的賭博機算法。但是，它可以在始終選擇自己認為是收入最高的臂的同時做到這一點。接下來，我們研究一個可以通過支付短期獎勵成本來獲取信息的問題。之前已經研究過類似的問題，這些挑戰給標准的賭博機算法帶來了挑戰(參見例如Russo and Van Roy, 2014)。相比之下，人類和動物所做的決策犧牲了信息獲取的即時獎勵(例如Bromberg-Martin and Hikosaka, 2009)。
　　在此實驗中，對智能體進行了11臂賭博機訓練，臂之間有很強的依賴性。所有的臂都有確定的獎勵。九個"非目標"臂的獎勵=1，一個"目標"臂的獎勵=5。同時，臂a₁₁始終是"信息性的"，因為目標臂的索引是a₁₁的獎勵的10倍(例如，a₁₁上0.2的獎勵表示a₂是目標臂)。因此，a₁₁的獎勵范圍是0.1到1。在每個回合中，目標臂的索引都是隨機分配的。在每個回合的第一次試驗中，智能體不知道目標是哪個臂，因此信息臂返回了期望獎勵0.55，而每個目標臂都返回了期望獎勵1.4。因此，選擇信息臂意味着立即獲得獎勵，但要補償價值信息。回合長五步。先前試驗的獎勵是作為對智能體的額外觀察提供的。為了便於學習，它以one-hot格式編碼。
　　結果如圖3所示。盡管短期成本很高，但智能體一次學會了最優的長期策略，即對信息臂進行一次采樣，然后使用所得信息來開發高價值目標臂。Thompson采樣(如果提供了真實的先驗信息)會搜索潛在的目標臂，並在找到目標后加以利用。UCB的性能較差，因為即使早期發現了目標臂，它也會對每個臂采樣一次。

3.1.4 RESTLESS BANDITS

　　在先前的實驗中，我們考慮了平穩性問題，即智能體的動作產生了關於任務參數的信息，這些任務參數在每個回合中都保持不變。接下來，我們考慮一個賭博機問題，其中獎勵概率在一個回合的過程中發生變化，不同回合的變化率(波動率)不同。為了表現出色，智能體不僅必須跟蹤最優臂，還必須推斷回合的波動性並相應地調整其自身的學習率。在這樣的環境中，當環境快速變化時，學習率應該更高，因為過去的信息變得越來越不相關(Behrens et al., 2007; Sutton and Barto, 1998)。
　　我們測試了元RL是否會使用具有獎勵概率p₁和1-p₁的雙臂Bernoulli賭博機任務來學習這種靈活的RL策略。p₁的值在"低波動"回合中緩慢變化，而在"高波動"回合中快速變化。智能體除了知道回合中的獎勵歷史之外，無法知道其處於哪種回合類型。圖4a顯示了示例"低波動"和"高波動"回合。獎勵幅度固定為1，回合長100步。再次實現了UCB和Thompson采樣以進行比較。UCB中的置信區間項的參數Χ設置為1，根據經驗選擇該參數是為了在我們的數據集上獲得良好的性能。Thompson采樣的后驗更新包括對高斯隨機游動的了解，但是所有回合的波動性都是固定的。

　　與之前的實驗一樣，與最優固定學習率(α=0.5)的Thompson采樣，UCB或Rescorla-Wagner (R-W)學習規則(圖4b；Rescorla et al., 1972)相比，元RL在測試中的遺憾率更低。為了測試智能體是否調整了有效學習率，以適應不同波動水平的環境，我們將R-W模型擬合到智能體的行為，將回合分為10個塊，其中每個塊僅由"低波動"或"高波動"組成回合。我們考慮了四個不同的模型，其中包含三個參數的不同組合：學習率α，softmax逆溫度β和失效率ε，以解釋與估計價值無關的無法解釋的選擇方差(Economides et al., 2015)。模型"b"僅包括β，"ab"包括α和β，"be"包括β和ε，以及"abe"包括所有三個。在10個回合的每個塊中分別估計所有參數。在ε和α不自由的模型中，它們分別固定為0和0.5。根據貝葉斯信息准則(BIC)進行的模型比較表明，與每個塊具有固定學習率的模型相比，對於每個塊具有不同學習率的模型可以更好地描述元RL的行為。作為對照，我們對最優R-W智能體產生的行為進行了相同的模型比較，發現在每個回合中允許不同的學習率沒有好處(模型"abe"和"ab" vs "be"和"b"；圖4c -d)。在這些模型中，元RL行為的參數估計與回合的波動性密切相關，表明元RL將其學習率調整為回合的波動性，而擬合R-W行為的模型則簡單地恢復了固定參數(圖4e-f)。

3.2 MARKOV DECISION PROBLEMS

　　前面的實驗着重於賭博機任務，其中的動作不會影響任務的基礎狀態。現在我們來談談動作確實會影響狀態的MDP。我們從神經科學文獻中得出的任務開始，然后轉向最初是在動物學習的背景下研究的任務，該任務需要學習抽象的任務結構。與之前的實驗一樣，我們的重點是研究元RL如何適應任務結構的不變性。我們通過回顧最近在相關論文中報道的一個實驗來總結(Mirowski et al., 2016)，該實驗演示了元RL如何通過豐富的視覺輸入來擴展到大規模導航任務。

3.2.1 THE “TWO-STEP TASK”

　　在這里，我們研究了在神經科學文獻中廣泛使用的一種環境中的元RL，以區分被視為支持決策制定的不同系統的貢獻(Daw et al., 2005)。具體而言，開發此范式(被稱為"兩步任務"(Daw et al., 2011))是為了分解無模型的系統，該系統在狀態中緩存動作價值(例如TD(1) Q學習；參見Sutton and Barto, 1998)，從有模型系統中學習環境的內部模型，並通過超前計划來評估決策制定時的動作價值(Daw et al., 2005)。我們的興趣在於，盡管使用了無模型算法(在本例中為A2C)來訓練系統權重，但元RL是否會引起模仿有模型策略的行為。

　　我們使用了兩步任務的修改版，旨在增強有模型控制相比無模型控制的實用性(參閱Kool et al., 2016)。該任務的結構如圖5a所示。從第一階段狀態S₁，動作a₁分別以概率0.75和0.25導致第二階段狀態S₂和S₃，而動作a₂以概率0.25和0.7導致S₂和S₃。一個第二階段狀態以0.9的概率給出的獎勵為1.0(否則為零)。另一個以0.1的概率產生相同的獎勵。為每個回合隨機分配較高價值狀態的標識。因此，兩個第一階段動作的期望價值為r_a = 0.9和r_b = 0.1，或者r_a = 0.1和r_b = 0.9。所有三個狀態均由one-hot向量表征，並且轉換模型在各個回合之間保持不變：即，只有第二階段狀態的期望價值在回合之間發生變化。
　　我們應用了神經科學文獻中使用的常規分析方法，將無模型從有模型控制中分離出來(Daw et al., 2011)。這着重於"停留概率"，即在試驗 t 處選擇第二階段獎勵后，在試驗t+1處選擇第一階段動作的概率，這取決於試驗 t 是否涉及常見轉換(例如，狀態S₁處的動作a₁導致S₂)或罕見轉換(狀態S₁處的動作a₂導致S₃)。根據標准解釋(參見Daw et al., 2011)，無模型控制(à la TD(1))預測應該有獎勵的主要作用：如果跟隨獎勵，則第一階段的動作往往會重復，而不管轉換類型如何，如果后面跟着無獎勵(圖5b)，則此類動作往往不會重復(選擇切換)。相反，有模型控制可預測獎勵和轉換類型之間的相互作用，從而反映出一種更加目標導向的策略，該策略將轉換結構考慮在內。憑直覺，如果你在罕見的轉換(例如，在狀態S₁采取了動作a₂)之后獲得了第二階段的獎勵(例如，在S₂處)，則根據你對轉換結構的知識，可以最大程度地在下次試驗中獲得該獎勵，最優的第一階段動作是a₁(即轉換)。

　　根據智能體的選擇執行的停留概率分析結果顯示出一種模式，該模式通常被解釋為暗示有模型控制的操作(圖5c)。與以前的實驗一樣，當獎勵信息被保留在網絡輸入級別時，性能處於偶然級別。
　　如果按照神經科學中的標准實踐進行解釋，則該實驗中模型的行為會反映出令人驚訝的效果：使用無模型RL進行訓練會產生反映有模型控制的行為。我們必須注意到，對觀察到的行為模式有不同的解釋(Akam et al., 2015)，我們將在下面返回這一點。但是，盡管有此注意事項，但本實驗的結果進一步說明了從元RL出現的學習過程可能與用於訓練網絡權重的原始RL算法完全不同，並采取一種利用一致的任務結構的形式。

3.2.2 LEARNING ABSTRACT TASK STRUCTURE

　　在我們進行的最終實驗中，我們通過研究一項涉及豐富的視覺輸入，更長的時間范圍和稀疏獎勵的任務，朝着檢驗元RL的可擴展性邁出了一步。另外，在本實驗中，我們研究了一種元學習任務，該任務要求系統調整為抽象的任務結構，其中一系列對象扮演系統必須推斷的定義角色。
　　該任務改編自Harlow (1949)對動物行為進行的經典研究。在執行原始任務的每次試驗中，Harlow都向猴子展示了兩個帶有視覺對比的物體。其中一個覆蓋裝有食物的井。另一個覆蓋空井。動物在兩個物體之間自由選擇，並且如果存在食物的話可以獲取該獎勵。階段然后被隱藏，並隨機重置對象的左-右位置。然后開始了新的試驗，動物再次自由選擇。對於兩個相同的物體，此過程繼續進行了一定數量的試驗。在完成這組試驗后，用兩個全新且不熟悉的物體替換了原來的兩個物體，然后重新開始了該過程。重要的是，在每個試驗階段中，選擇一個物體要始終如一地獲得獎勵(無論其左-右位置如何)，而另一個物體始終沒有得到獎勵。Harlow (Harlow, 1949)觀察到，經過大量練習，猴子表現出的行為反映出對任務規則的理解。當展示兩個新物體時，猴子在它們之間的第一選擇必然是任意的。但是，在觀察到這種第一選擇的結果之后，猴子便總是選擇有獎勵的物體。

　　我們預期元RL應該引起相同的抽象one-hot學習模式。為了對此進行測試，我們將Harlow的范例調整為視覺固定任務，如下所示。一個84x84像素的輸入代表一個模擬的計算機屏幕(參見圖6a-c)。在每個試驗開始時，該顯示為空白，除了一個小的中央固定叉(紅色十字准線)。智能體選擇了離散的左-右動作，這些動作在相應的方向上將其視線移動了約4.4度，並且動量效應較小(或者，可以選擇無操作動作)。要完成試驗，需要執行兩項任務：掃描到中央注視交叉點，然后掃描到正確的圖像。如果智能體將注視交叉點保持在視場中心(視角范圍為3.5度以內)至少四個時間步驟，則得到的獎勵為0.2。然后，固定十字消失，在顯示器的左側和右側分別出現了兩個圖像——從ImageNet數據集中隨機抽取(Deng et al., 2009)並調整為34x34大小(圖6b)。然后，智能體的任務是通過旋轉直到圖像的中心與視場的中心對齊(在7度視角范圍內)來“選擇”其中一幅圖像。一旦選擇了其中一張圖像，兩張圖像都消失了，在10個時間步驟的間隔之后，重新出現了固定十字，開始了下一次試驗。每個回合最多包含10個試驗或3600個步驟。參考Mirowski et al. (2016)，我們將動作重復次數設為4，這意味着在完成注視后，選擇一張圖片至少要進行三個獨立的決定(12個原始動作)。但是，應當注意的是，智能體的旋轉位置不受限制。也就是說，可能會發生360度旋轉，而模擬的計算機屏幕只能對向65度。

　　盡管在每個回合的開頭選擇了新的ImageNet圖像(從一組1000張圖像中進行替換采樣)，但是在一個回合內的所有試驗中都重復使用了相同的圖像，盡管其左-右位置隨機變化，類似於Harlow的實驗中的物體。就像在那個實驗中一樣，在整個回合中，任意選擇一張圖像作為"獎勵"圖像。選擇此圖像產生的獎勵為1.0，而另一個圖像產生的獎勵為-1.0。在測試過程中，將A3C學習率設置為零，並從單獨的1000個不受支持的集合中抽取ImageNet圖像，這些圖像在訓練過程中從未出現過。

　　對最優超參數進行了網格搜索。在完美的性能下，智能體可以每20-30個步驟完成一個試驗，並獲得每10個試驗9個的最大期望獎勵。鑒於任務的性質——它需要one-shot圖像獎勵記憶以及在相對較長的時間范圍內保持此信息(即，通過固定注視，交叉選擇和跨試驗)——我們不僅評估了卷積LSTM的性能，接收獎勵和動作作為額外輸入的架構(參見圖1b和表1)，以及在下面討論的導航任務中使用的卷積堆棧LSTM架構(參見圖1c)。

　　智能體性能如圖6d-f所示。盡管單個LSTM智能體在解決任務方面相對成功，但堆棧LSTM變體表現出了更好的魯棒性。也就是說，最優超參數集的隨機種子的43％在上限執行(圖6e)，而單個LSTM的26％。
　　就像Harlow的實驗中的猴子(Harlow, 1949)一樣，網絡融合在一個最優策略上：不僅智能體成功地注視着開始每個試驗，而且從每個回合的第二次試驗開始，它總是選擇獎勵圖像，無論它在第一次試驗中選擇了哪個圖像(圖6f)。這反映了一種令人印象深刻的one-shot學習形式，它反映了對任務結構的內在理解：在觀察到一個試驗結果后，智能體將復雜且陌生的圖像綁定到特定的任務角色。
　　在其他地方報道的進一步實驗(Wang et al., 2017)證實了相同的循環A3C系統也能夠解決難度更大的任務。在此任務中，僅一個圖像(這被隨機指定為將要選擇的獎勵物品或應避免的不獎勵物品)在一個回合中的每個試驗中被呈現，而在每個試驗中呈現的另一幅圖像則是新穎的。

3.2.3 ONE-SHOT NAVIGATION

　　使用Harlow任務的實驗證明了元RL在相對較長的時間范圍內，在視覺豐富的環境中有效操作的能力。在這里，我們考慮了導航領域內最近報道的相關實驗(Mirowski et al., 2016) (另請參見Jaderberg et al., 2016)，並討論了如何將這些實驗改寫為元RL的示例——證明了該原理在更典型的MDP設置上的可擴展性，由於動態變化的稀疏獎勵而造成了具有挑戰性的RL問題。

　　具體來說，我們考慮的環境是固定的，但目標在每個回合中隨機更改位置(圖7；Mirowski et al., 2016)。盡管布局相對簡單，但迷宮環境(詳細信息參見Mirowski et al., 2016)更加豐富且離散化程度更高(參見VizDoom)，從而導致了長時間范圍；訓練好的智能體需要大約100步(10秒)才能在給定回合中首次達到目標。結果表明，堆棧LSTM架構(圖1c)可以接收與我們的Harlow實驗中等效的獎勵和動作當做額外的輸入，從而實現了接近最優的行為——在初始探索期之后，對目標位置顯示了one-shot記憶，隨后是反復開發(見圖7c)。與隨后的訪問(約30個時間步驟)相比，首次達到目標(約100個時間步驟)的時延大大減少，這證明了這一點。值得注意的是，僅接收單個圖像作為觀察結果的前饋網絡(參見圖7c)無法解決任務(即，連續目標獎勵之間的時延沒有減少)。盡管在Mirowski et al. (2016)中沒有這樣解釋，這清楚地證明了元RL的有效性：通過使用固定且更多增量的RL算法(即策略梯度)進行訓練，出現了具有one-shot學習能力的單獨的RL算法。可以將元RL視為允許智能體在初始探索之后推斷最優價值函數(請參見圖7d)—— 額外的LSTM向LSTM提供有關當前相關目標位置的信息，該LSTM在回合的擴展時間范圍內輸出策略。綜上所述，元RL允許基本的無模型RL算法解決具有挑戰性的RL問題，否則可能需要根本不同的方法(例如，基於后繼表征或完全有模型的RL)。

4 RELATED WORK

　　我們已經談到了深度元RL與Hochreiter et al. (2001)的開創性工作之間的關系。使用循環網絡在完全監督的情況下進行元學習(另見Cotter and Conwell, 1990; Prokhorov et al., 2002; Younger et al., 1999)。Santoro et al. (2016)最近擴展了該方法，展示了利用外部記憶結構的實用性。Schmidhuber et al. (1996)先前曾討論過將元學習與RL相結合的想法。這項工作似乎引入了"元RL"一詞，與我們的工作有所不同，因為它不涉及神經網絡的實現。但是最近，人們對使用神經網絡學習優化程序，使用一系列創新的元學習技術的興趣激增(Andrychowicz et al., 2016; Chen et al., 2016; Li and Malik, 2016; Zoph and Le, 2016)。Chen et al. (2016)的最新工作在想法上與我們在這里提出的工作特別接近，可以被視為使用與我們所追求的大致相似的元學習策略來處理“無限賭博機”的情況。

　　本研究還與尚未進行元學習框架的近期工作的不同機構有着密切的關系。大量研究已使用深度RL來訓練導航任務上的RNN，其中任務的結構(例如目標位置或迷宮配置)隨回合的不同而有所不同(Jaderberg et al., 2016; Mirowski et al., 2016)。我們上面提出的最終實驗(例如，Mirowski et al., 2016)就是一個例子。在某種程度上來說，此類實驗涉及深度元RL的關鍵成分——帶有記憶的神經網絡，通過RL在一系列相互關聯的任務上進行訓練——幾乎可以肯定，這些實驗都涉及了我們目前所描述的元學習工作。這項相關的工作表明，與我們自己的實驗相比，元RL可以有效地應用於更大范圍的問題。重要的是，這表明擴展該方法的關鍵因素可能是將記憶機制納入非結構化RNN固有的記憶機制之外(見Graves et al., 2016; Mirowski et al., 2016; Santoro et al., 2016; Weston et al., 2014)。就我們而言，我們的工作表明，深度循環RL智能體有潛能來元學習任務結構的非常抽象的方面，並發現將這種結構用於快速且靈活適應的策略。

　　在完成本研究期間，Duan et al. (2016)報告了密切相關的工作。與我們一樣，Duan和同事使用深度RL來訓練循環網絡進行一系列相互關聯的任務，結果是網絡動態學習了第二個RL程序，該過程的運行時間比原始算法快。他們將這些學習過程的性能與傳統RL算法在多個領域的性能進行了比較，包括賭博機和導航。這項並行工作與我們自己的工作之間的重要區別是，前者主要關注相對非結構化的任務分布(例如，均勻分布的賭博機問題和隨機MDP)；相反，我們的主要興趣在於結構化的任務分布(例如，依賴賭博機和Harlow, 1949引入的任務)，因為正是在這種情況下，系統可以學習有偏的(因此有效)利用常規任務結構的RL程序。在這方面，這兩種觀點是相輔相成的。

5 CONCLUSION

　　AI當前面臨的挑戰是設計智能體，以通過利用從先前經驗中獲得的相關知識來快速適應新任務。在當前的工作中，我們報告了對我們認為是實現該目標的一種有希望途徑的初步探索。深度元RL包含三個要素的組合：(1) 使用深度RL算法訓練RNN，(2) 包括一系列相互關聯任務的訓練集，(3) 網絡輸入，包括選擇的動作和在上一個時間間隔中收到的獎勵。關鍵的結果是從設置中自然而然地產生出來的，而不是經過專門設計的，其結果是，循環網絡動態學會了實現第二個RL程序，該程序獨立並且可能與用於訓練網絡權重的算法非常不同。至關重要的是，將這種學習過的RL算法調整為訓練任務的共享結構。從這個意義上講，學習型算法建立在適合於域的偏差中，這可以使其比通用算法有更高的效率。這種偏差效果在我們涉及依賴賭博機的實驗結果中特別明顯(第3.1.2和3.1.3節)，在這種情況下，系統學會了利用任務的協方差結構；在我們對Harlow的動物學習任務的研究(第3.2.2節)中，循環網絡學會了利用任務的結構來展示具有復雜新穎刺激的one-shot學習。

　　我們的一項實驗(第3.2.1節)說明了一點，即使用無模型RL算法訓練的系統可以開發出模仿有模型控制的行為。對此結果還需進一步評論。正如我們對模擬結果的介紹所指出的那樣，在認知和神經科學文獻中，網絡所顯示的選擇行為模式已反映出有模型控制或樹搜索。然而，正如最近的工作所提到的，具有適當狀態表征的無模型系統可能會產生相同的模式(Akam et al., 2015)。確實，我們懷疑這實際上是我們網絡的操作方式。但是，其他發現表明，當在一組更多樣化的任務上訓練相似的系統時，可以出現更明確的有模型控制機制。特別是，Ilin et al. (2007)表明，在隨機迷宮上訓練的循環網絡可以近似動態編程程序(另請參見Silver et al., 2017; Tamar et al., 2016)。同時，正如我們所強調的，我們認為深度元RL的一個重要方面是它產生了一個學習型RL算法，該算法利用了任務結構的不變性。作為結果，當面對千差萬別但仍然結構化的環境時，深度元RL似乎會生成RL過程，該過程占據了無模型RL與有模型RL之間的灰色區域。

　　在3.2.1節中研究的兩步決策問題來自神經科學，我們認為深度元RL在該領域可能具有重要意義(Wang et al., 2017)。元RL的概念先前已在神經科學中進行過討論，但僅在狹義上進行了討論，據此，元學習可調整標量超參數，例如學習率或softmax逆溫度(Khamassi et al., 2011; 2013; Kobayashi et al., 2009; Lee and Wang, 2009; Schweighofer and Doya, 2003; Soltani et al., 2006)。在最近的工作中(Wang et al., 2017)，我們表明深度元RL可以解釋更廣泛的實驗觀察結果，為理解多巴胺和前額葉皮層在生物學RL中的各自作用提供了一個綜合框架。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。