RL算法解決gym中的LunarLander-v2游戲（可用的資料）

本文轉載自查看原文 2020-05-23 22:20 659 python/ RL/ ML

　　參考資料：

　　https://github.com/ranjitation/DQN-for-LunarLander/

　　https://github.com/XinliYu/Reinforcement_Learning-Projects/tree/master/LunarLander

　　https://stanford-cs221.github.io/autumn2019-extra/posters/113.pdf

　　https://github.com/openai/gym/wiki/Leaderboard#lunarlander-v2、

　　https://www.researchgate.net/publication/333145451_Deep_Q-Learning_on_Lunar_Lander_Game?enrichId=rgreq-97106d655a4f7c18eb0cd40c05fdbb59-XXX&enrichSource=Y292ZXJQYWdlOzMzMzE0NTQ1MTtBUzo3NTkyMDY2NzYyNzExMTRAMTU1ODAyMDM4NTg5MA%3D%3D&el=1_x_3&_esc=publicationCoverPdf　　　本人使用上圖所示的算法，即DQN解決了OpenAI-gym中LunarLander-v2游戲。

　　我僅僅列出了可用的資料，害怕遺忘所以記在這里。寫的代碼就不放了，主要是follow參考資料一，按照上圖算法一步一步來就好。最后的結果的話平均分數能夠達到281分，但是仍然有機率降落在停機坪外，只不過可以保證降落過程100%平穩。然而網上最強的結果是能夠達到284多分，這意味着每次小火箭都基本能精確、平穩（緩慢）的降落在停機坪。可能和超參數有關，還需要多多嘗試。雖然如此，成功解決問題的標准是連續100次的平均分數大於200，所以達到這個目標之后再精益求精就可。

　　下面放兩個效果圖，一個是迭代20次的結果，一個是最好分數的結果（大概6、700個episode）。

　　迭代20次：

　　最好模型：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 gym 搭建 RL 環境 jeecms v9開發資料游戲常用算法-洗牌算法 24點游戲算法（算法）游戲必勝策略【算法題 8】跳躍游戲離散復習資料之一（Fleury算法） Android資料之-EditText中的inputType 【RL系列】馬爾可夫決策過程中狀態價值函數的一般形式 Linux 16.04.1-Ubuntu 安裝 Python3 + openAi Gym 以及錯誤解決