Decision Transformer: Reinforcement Learning via Sequence Modeling

本文轉載自查看原文 2021-08-21 09:21 135 imitation learning/ Reinforcement Learning/ 論文速讀/ RL

發表時間：2021
文章要點：這篇文章提出了一個Decision Transformer的模型，在offline RL的設定下，不直接去擬合數據，不需要做policy improvement，就可以達到甚至超過offline RL baseline。具體做法很簡單，就是用transformer去擬合數據，數據結構如下

這里的R不是reward，是return，具體來說應該是reward-to-go-return。這個transformer好像具有自己從數據中發現規律的能力，不需要做batch RL里面的policy improvement就能找到更優的策略（Thus, by combining the tools of sequence modeling with hindsight return information, we achieve policy improvement without the need for dynamic programming.）。然后用的時候，需要輸入target_return，就是你想達到的累計回報。所有輸入為
R, s, a, t, done = [ target_return ], [env. reset ()] , [], [1] , False
然后就輸出這個target return對應的動作。然后執行動作得到下一個狀態和reward，計算剩下的return，再把新的數據輸入得到下一個動作，以此類推。

文章開頭還舉了個例子來說明這個問題的直覺解釋

大概就是說對一個圖來找最短路徑。我們有的是random walk的軌跡，然后transformer擬合這些軌跡后就能從中找到一條到達目標的最優軌跡。
總結：這篇文章其實是有點玄幻的。雖然你是transformer，但是擬合就是擬合，難道真的網絡已經有了很強大的推理能力了嗎？應該最多只能達到和dataset里最好的trajectory的效果，這才是make sense的。會不會是剛好樣本里面就有這么一條好的軌跡，擬合之后就剛好能輸出對應的動作呢？至於為什么會超過offline RL baseline，就如文章所說，是不是可能是error propagation and value overestimation的鍋，如果是的話，調調參是不是baseline的效果就上去了？畢竟傳統的offline RL還有個policy improvement的步驟，再差也不至於比imitation差吧。
疑問：不懂transformer的原理，不知道為啥他可以效果這么好，難道這不就是一個imitation learning嗎，為啥效果可以超過batch RL的算法？causal self-attention mask是啥，難道效果好是因為這個？感覺需要了解一下transformer了。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。