Decision Transformer: Reinforcement Learning via Sequence Modeling



發表時間:2021
文章要點:這篇文章提出了一個Decision Transformer的模型,在offline RL的設定下,不直接去擬合數據,不需要做policy improvement,就可以達到甚至超過offline RL baseline。具體做法很簡單,就是用transformer去擬合數據,數據結構如下

這里的R不是reward,是return,具體來說應該是reward-to-go-return。這個transformer好像具有自己從數據中發現規律的能力,不需要做batch RL里面的policy improvement就能找到更優的策略(Thus, by combining the tools of sequence modeling with hindsight return information, we achieve policy improvement without the need for dynamic programming.)。然后用的時候,需要輸入target_return,就是你想達到的累計回報。所有輸入為
R, s, a, t, done = [ target_return ], [env. reset ()] , [], [1] , False
然后就輸出這個target return對應的動作。然后執行動作得到下一個狀態和reward,計算剩下的return,再把新的數據輸入得到下一個動作,以此類推。

文章開頭還舉了個例子來說明這個問題的直覺解釋

大概就是說對一個圖來找最短路徑。我們有的是random walk的軌跡,然后transformer擬合這些軌跡后就能從中找到一條到達目標的最優軌跡。
總結:這篇文章其實是有點玄幻的。雖然你是transformer,但是擬合就是擬合,難道真的網絡已經有了很強大的推理能力了嗎?應該最多只能達到和dataset里最好的trajectory的效果,這才是make sense的。會不會是剛好樣本里面就有這么一條好的軌跡,擬合之后就剛好能輸出對應的動作呢?至於為什么會超過offline RL baseline,就如文章所說,是不是可能是error propagation and value overestimation的鍋,如果是的話,調調參是不是baseline的效果就上去了?畢竟傳統的offline RL還有個policy improvement的步驟,再差也不至於比imitation差吧。
疑問:不懂transformer的原理,不知道為啥他可以效果這么好,難道這不就是一個imitation learning嗎,為啥效果可以超過batch RL的算法?causal self-attention mask是啥,難道效果好是因為這個?感覺需要了解一下transformer了。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM