RL算法解決gym中的LunarLander-v2游戲(可用的資料)


  參考資料:

  https://github.com/ranjitation/DQN-for-LunarLander/

  https://github.com/XinliYu/Reinforcement_Learning-Projects/tree/master/LunarLander

  https://stanford-cs221.github.io/autumn2019-extra/posters/113.pdf

  https://github.com/openai/gym/wiki/Leaderboard#lunarlander-v2

  https://www.researchgate.net/publication/333145451_Deep_Q-Learning_on_Lunar_Lander_Game?enrichId=rgreq-97106d655a4f7c18eb0cd40c05fdbb59-XXX&enrichSource=Y292ZXJQYWdlOzMzMzE0NTQ1MTtBUzo3NTkyMDY2NzYyNzExMTRAMTU1ODAyMDM4NTg5MA%3D%3D&el=1_x_3&_esc=publicationCoverPdf   本人使用上圖所示的算法,即DQN解決了OpenAI-gym中LunarLander-v2游戲。

  我僅僅列出了可用的資料,害怕遺忘所以記在這里。寫的代碼就不放了,主要是follow參考資料一,按照上圖算法一步一步來就好。最后的結果的話平均分數能夠達到281分,但是仍然有機率降落在停機坪外,只不過可以保證降落過程100%平穩。然而網上最強的結果是能夠達到284多分,這意味着每次小火箭都基本能精確、平穩(緩慢)的降落在停機坪。可能和超參數有關,還需要多多嘗試。雖然如此,成功解決問題的標准是連續100次的平均分數大於200,所以達到這個目標之后再精益求精就可。

  下面放兩個效果圖,一個是迭代20次的結果,一個是最好分數的結果(大概6、700個episode)。

  迭代20次:

  

  最好模型:

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM