為何RL泛化這么難:UC伯克利博士從認知POMDP、隱式部分可觀察解讀


https://zhuanlan.zhihu.com/p/439057436

強化學習為何泛化如此困難?來自加州大學伯克利分校等機構的研究者從認知 POMDP、隱式部分可觀察兩個方面進行解釋。

機器之心報道,編輯:陳萍、杜偉。

當今強化學習(RL)的問題很多,諸如收斂效果不好。在偏弱的實驗環境里,模型測試結果看起來尚可,許多問題暴露得不明顯,但大量實驗已經證明深度 RL 泛化很困難:盡管 RL 智能體可以學習執行非常復雜的任務,但它似乎對不同任務的泛化能力較差,相比較而言,監督深度網絡具有較好的泛化能力。

有研究者認為,對於監督學習來說,發生一次錯誤只是分類錯一張圖片。而對於 MDP(馬爾可夫決策過程)假設下的 RL,一次識別錯誤就會導致次優決策,甚至可能一直錯誤下去,這也是 RL 在現實世界沒法用的根源。

為什么強化學習的泛化能力從根本上來說很難,甚至從理論的角度來說也很難?來自加州大學伯克利分校的博士生 Dibya Ghosh 等研究者共同撰文解釋了這一現象,文章從認知 POMDP(Epistemic POMDP)、隱式部分可觀察(Implicit Partial Observability)兩個方面進行解釋。論文共同一作 Dibya Ghosh 的研究方向是使用強化學習進行決策。之前,他曾在蒙特利爾的 Google Brain 工作。

論文地址:arxiv.org/pdf/2107.0627

通過示例進行學習

在正式分析 RL 泛化之前,研究者首先通過兩個示例解釋 RL 中泛化困難的原因。

猜圖游戲

在這個游戲中,RL 智能體在每個回合(episode)中都會看到一張圖像,並盡可能快地猜出圖像標簽(下圖 1)。每個時間步長內(timestep),智能體必須進行一次猜測;如果猜測正確,那么這一回合就結束了。但如果猜錯了,則智能體會收到一個負反饋,並要在下一個回合中對相同的圖像進行其他猜測。因為每張圖像都有唯一的標簽(有正確的標簽函數 f_true:x—>y),智能體接收圖像作為觀測,這是一個完全可觀測的 RL 環境。

圖 1:在猜圖游戲中,智能體反復猜測圖像標簽,直到正確為止。

假設我們可以訪問無限數量的訓練圖像,並使用標准 RL 算法學習策略。該策略將學習如何確定地預測真實標簽(y:=f_true(x)),同時這也是 MDP 中的最高回報(return)策略。假如只有一組有限的訓練圖像,RL 算法仍然會學習相同的策略,確定性地預測與圖像匹配的標簽。

但是,這種策略的泛化能力如何呢?在未見過的測試圖像上,如果智能體預測標簽仍然正確,智能體將會獲得最高的獎勵;如果不正確,智能體會收到災難性的低回報,因為它永遠不會猜到正確的標簽。這種災難性的失敗模式一直存在,因為即使現代深度網絡提高了泛化能力並減少了錯誤分類的機會,但測試集上的錯誤也不能完全減少到 0。

我們能做得比這種確定性預測策略更好嗎?因為學習 RL 策略忽略了猜圖游戲的兩個顯著特征:1) 智能體會在一個回合中接收猜測是否正確的反饋,以及 2) 智能體可以在未來的時間步長中更改其猜測。消除過程(process-of-elimination)策略可以很好地利用這兩個特征:首先,RL 會選擇它認為最有可能的標簽,如果不正確,則消除該標簽並適應下一個最有可能的標簽,依此類推。然而,這種基於記憶的自適應策略永遠不會被標准 RL 算法學習,因為它們優化了 MDP 目標並且只學習確定性和無記憶策略。

迷宮求解算法

作為 RL 泛化基准測試的主要內容,迷宮求解問題要求智能體可以導航到迷宮中的目標,並且給出整個迷宮的鳥瞰圖。這項任務是完全基於觀察的,智能體通過觀察展示整個迷宮圖。因此,最優策略是無記憶和確定性的,只要智能體沿着最短路徑到達目標即可。

就像在猜圖游戲中一樣,RL 通過最大化訓練迷宮布局內的回報,確定性會采取它認為以最短路徑到達目標的行動(action)。

這種 RL 策略泛化能力很差,因為如果學習策略選擇了一個錯誤的動作,比如撞牆或折回原來的道路,它將繼續循環同樣的錯誤並且永遠無法解決迷宮問題。但是,這種失敗模式是完全可以避免的,因為即使 RL 智能體最初采取了這樣一個不正確的行動,在經過幾次跟隨之后,智能體會收到所采取的行為正確與否的信息(比如基於下一次觀察)。

為了盡可能地進行泛化,如果智能體最初的行動導致了意想不到的結果,那么智能體應該適應它所選擇的行動,但是這種行動回避了標准的 RL 目標。

圖 2:在迷宮任務中,RL 策略泛化能力很差:當出現錯誤時,它們會重復犯同樣的錯誤,導致失敗(左)。泛化良好的智能體也會犯錯誤,但具有適應性和從這些錯誤中恢復的能力(右)。用於泛化的標准 RL 目標不會學習這種行為。

圖 3:有限的訓練數據集使智能體無法准確地恢復真實環境。相反,存在一種隱式部分可觀察,因為智能體不知道在一組一致的環境中哪一個是真實的環境。

當給智能體一個小的上下文訓練集時,許多動態模型與提供的訓練上下文匹配,但與保留(held-out)的上下文有所不同。這些相互矛盾的假設體現了智能體在有限訓練集中的認知不確定性。更重要的是,智能體通過軌跡接收到的信息,可以在評估時改變其認知不確定性。假設對於猜謎游戲中的圖像,智能體最初在「t-shirt / coat」標簽之間不確定。如果智能體猜測「t-shirt 」並收到錯誤的反饋,智能體會改變其不確定性並對「 coat」標簽變得更有信心,這意味着它應該因此而適應並猜測「 coat」。

認知 POMDP 與隱示部分可觀察

RL 智能體有兩種方式處理其認知不確定性:主動轉向低不確定性區域和采用信息收集。但是它們都沒有回答這些問題:「是否有一個最好的方法來處理不確定性,如果有的話,我們該如何描述呢?」從貝葉斯的角度來看,事實證明存在這樣一個最優解:最優泛化要求我們解決「部分可觀察的馬爾可夫決策過程 (POMDP)」,POMDP 隱式地由智能體認知不確定性創建。

認知 POMDP(epistemic POMDP)作用如下:由於智能體只能看到有限的訓練集,因此有許多可能的環境與提供的訓練上下文一致。一致的環境集可以通過貝葉斯后驗對環境進行編碼 P(M | D),在認知 POMDP 的每一個階段中,智能體被放入這種一致的環境中 M~P(M | D),並要求在其中最大化獎勵。

該系統對應於 POMDP,因為行動所需的相關信息,智能體只能通過部分觀察到:雖然環境中的狀態被觀察到,但環境 M 生成這些狀態的信息對智能體是隱藏的。認知 POMDP 將泛化問題實例化到貝葉斯 RL 框架中,該框架更一般性地研究了 MDP 分布下的最優行為。

圖 4:在認知 POMDP 中,智能體在每個階段中與不同的相互一致環境進行交互,但不知道它具體與哪個交互可以導致部分可觀察性。要想做得好,智能體必須采用(可能基於內存的)策略,使得其無論置於哪個環境中,都可以很好地工作。

讓我們通過一個示例來了解認知 POMDP 。對於猜謎游戲,智能體不確定圖像究竟如何標記,因此每個可能的環境 M∼P(M∣D) 對應於不同圖像標簽器,其與訓練數據集保持一致:f_M:X→Y。在猜謎游戲的認識 POMDP 中,每階段隨機選擇一個圖像 x 和標簽器 f_M,並要求智能體輸出采樣分類器 y=f_M(x) 分配的標簽。智能體不能直接這樣做,因為分類器的身份沒有提供給智能體,只提供了圖像 x。如果所有標簽器 f_M 后驗都同意某個圖像的標簽,則智能體可以只輸出這個標簽(沒有部分可觀察性)。但是,如果不同的分類器分配不同的標簽,則智能體必須使用平均效果良好的策略。

認知 POMDP 還強調了從有限訓練集上下文中學習策略的危險:在訓練集上運行完全可觀察的 RL 算法。這些算法將環境建模為 MDP,並學習 MDP 最優策略,即確定性和馬爾可夫策略。這些策略不考慮部分可觀察性,因此往往泛化性很差(例如在猜謎游戲和迷宮任務中)。這表明基於 MDP 訓練目標(現代算法標准)與認知 POMDP 訓練目標(實際上決定了所學習策略的泛化程度)之間存在不匹配。

在 RL 中推進泛化

我們應該怎么做才能學習更好泛化的 RL 策略?認知 POMDP 提供了一個規范的解決方案:當可以計算智能體在環境上的后驗分布時,通過構建認知 POMDP 並在其上運行 POMDP 求解算法將產生泛化貝葉斯最優的策略。

遺憾的是,在大多數有趣的問題中,還不能完全做到。盡管如此,認知 POMDP 可以作為設計具有更好泛化能力 RL 算法的標桿。作為第一步,研究者在論文中引入了一種稱為 LEEP 的算法,該算法使用統計自助法 (Bootstrapping) 來學習近似認知 POMDP 的策略。

在具有挑戰性的 RL 智能體泛化基准測試 Procgen 上,LEEP 在測試時的性能比 PPO 顯著提高(圖 3)。雖然只是粗略的逼近,但 LEEP 提供的一些跡象表明,嘗試在 epistemic POMDP 中學習策略可以成為開發更通用 RL 算法的有效途徑。

圖 5:LEEP,一種基於認知 POMDP 目標的算法,在四個 Procgen 任務中比 PPO 具有更好的泛化性能。

在監督學習中,優化訓練集性能可以提高模型泛化能力,因此,很容易假設 RL 中的泛化可以用同樣的方式解決,但這顯然是錯誤的。RL 中有限的訓練數據將隱式的部分可觀察性引入到一個完全可觀察的問題中。這種隱式的部分可觀察性,正如認知 POMDP 形式化的那樣,意味着在 RL 中很好地泛化需要自適應或隨機行為,這是 POMDP 問題的關鍵。

最終,這凸顯了深度 RL 算法泛化的不兼容性:由於訓練數據有限,基於 MDP 的 RL 目標與最終決定泛化性能的隱式 POMDP 目標不一致。

原文鏈接:bair.berkeley.edu/blog/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM