論文筆記之:Deep Recurrent Q-Learning for Partially Observable MDPs


 

Deep Recurrent Q-Learning for Partially Observable MDPs 

 

   摘要:DQN 的兩個缺陷,分別是:limited memory 和 rely on being able to perceive the complete game screen at each decision point. 

  為了解決這兩個問題,本文嘗試用 LSTM 單元 替換到后面的 fc layer,這樣就產生了 Deep Recurrent Q-Network (DRQN),雖然每一個時間步驟僅僅能看到一張圖像,仍然成功的結合了相關信息,在Atari games 和 partically observed equivalents feature flikering game screens,得到了 DQN 相當的效果。另外,當用部分觀測進行訓練,並且用逐漸增加的完整的觀測時,DRQN 的性能和觀測成一定的函數關系。相反的,當用全屏進行訓練的時候,用部分觀測進行評估,但是DRQN 的性能卻比 DQN 的效果要差。所以,給定同樣長度的歷史,recurrency 是一種實際可行的方法來存儲 DQN 的輸入層的歷史。

 

     引言:開頭講了 DQN 取得的成功,后面開始說他的兩個弱點,使得 MDP問題逐漸變成了 部分觀測的馬爾科夫決策過程(partically-observable markov decision process)。

  像下圖所展示的那樣,僅僅給定一幀圖像,許多游戲就變成了 POMDPs。一個例子就是,我們只能知道這個球的位置,但是無法得知其速度。但是知道球的運動方向是非常重要的,因為這將會決定最優的踏板的位置。

 

  我們觀測到 DQN 的性能在給定不完全的狀態觀測時,性能就會下降。我們假設 DQN 可以被改善的能夠處理 POMDPs,通過引入 RNN 的 advances 。 所以,我們引入了 Deep Recurrent Q-Network (DRQN),組合了 LSTM 和 Deep Q-network。關鍵的是,我們表明 DRQN 能夠處理部分觀測的情況,and that recurrency confers benefits when the quality of observations change during evaluation time . 

  

  Deep Q-learning 的簡介(略)

 

  Partical Observability : 

  在真實世界的環境中,很少有 full state of the system 可以提供給 agent 。換句話說,馬爾科夫屬性在這樣的環境中,幾乎不成立 。部分觀測的 MDPs 可以更好的抓住環境的動態,通過顯示的認識到:agent 接受到的感知都是潛在系統狀態的部分glimpse (only partical glimpses of  the underlying system state)。形式上來說,POMDP 可以表達為 6個變量:

  (S, A, P, R, X, O). 假設這幾個變量分別為:狀態,動作,轉移函數,獎勵,X 表示真實的環境,但是agent 只能感知其部分信息 o 。

  在一般情況下,預測一個 Q-value 可能是不准確的,是因為: $Q(o, a|\theta) != Q(s, a|\theta)$ 。

  我們的實驗表明,添加了 recurrency 到 DQN 當中,允許 Q-network 能夠更好的預測潛在的系統狀態,縮小上述不等式兩者之間的差距。從而更加准確的預測 Q values ,進一步的提升學習到的策略。

 

  DRQN Architecture:

  像圖 2 所示的那樣,DRQN 的結構是將 DQN 上的 第一個 fc layer 替換成了 LSTM 單元。

  

  對於輸入來說,Recurrent network 輸入一張 84*84 的圖像。

 

 

 

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM