谷歌重磅開源強化學習框架Dopamine吊打OpenAI
近日OpenAI在Dota 2上的表現,讓強化學習又火了一把,但是 OpenAI 的強化學習訓練環境 OpenAI Gym 卻屢遭抱怨,比如不太穩定、更新不夠及時等。今日,谷歌推出了一款全新的開源強化學習框架 Dopamine,該框架基於 TensorFlow,主打靈活性、穩定性、復現性,能夠提供快速的基准測試。
配套開源的還包括一個專用於視頻游戲訓練結果的平台,以及四種不同的機器學習模型:DQN、C51、簡化版的 Rainbow 智能體和 IQN(Implicit Quantile Network),相比OpenAI的強化學習基准,Dopamine更多關注off-policy方法。 為了實現可重復性,Github 代碼包括 Arcade Learning Environment 支持的全部 60 個游戲的完整測試和訓練代碼,並遵循標准化經驗評估結果的最佳實踐。 除此之外,谷歌還推出了一個網站,允許開發人員將訓練中的多個智能體的運行情況快速可視化。
強化學習(RL)領域的研究在過去幾年中取得了重大進展,這些進展讓相關代理能夠以超人類水平玩游戲——包括DeepMind的DQN(AlphaGo和AlphaGo Zero)和Open AI Five。具體地說,在DQN中引入重放記憶可以利用以前的代理經驗,大規模分布式訓練可以在多個工作進程之間分配學習任務,分布式方法讓代理對完整的分布(而不只是期望值)進行建模,從而實現更完整的學習。這方面的進展非常重要,因為相關算法還可以應用到其他領域,例如機器人技術。
通常,這類進展要求在設計方面進行快速迭代——通常沒有明確的方向——並顛覆已有的方法結構。然而,大多數現有的RL框架並不會提供靈活性和穩定性組合,讓研究人員能夠有效地迭代RL方法,發現新的但可能沒有直接明顯好處的研究方向。此外,在現有框架中重現結果通常太耗時,從而導致科學的可重現性問題。
今天,我們推出了一個全新的基於Tensorflow的框架——Dopamine,旨在為RL研究人員提供靈活性、穩定性和可重復性。這個框架受大腦獎勵動機行為主要組件的啟發,並反映了神經科學與強化學習研究之間強的歷史聯系,旨在實現可以推動激進發現的投機性研究。該框架還提供了一組解釋如何使用框架的Colab(https://github.com/google/dopamine/blob/master/dopamine/colab/README.md)。
易用性
清晰和簡潔是這個框架的兩個關鍵設計考慮因素。我們提供的代碼非常緊湊(大約15個Python文件),並且有詳細的文檔。這是基於Arcade學習環境(一個成熟的、易於理解的基准)和四個基於值的代理DQN、C51、Rainbow代理的簡化版本以及隱式分位數網絡代理(剛在上個月的國際機器學習大會上發布)實現的。我們希望這種簡潔能夠讓研究人員輕松了解代理的內部運作並快速嘗試新的想法。
可重現性
我們非常關注可重現性在強化學習研究中的作用。我們的代碼通過了完整的測試覆蓋,這些測試用例也可作為某種形式的文檔使用。此外,我們的實驗框架遵循了Machado等人給出的使用Arcade學習環境標准化進行經驗評估的建議。
基准測試
對於研究人員來說,能夠根據已有方法快速對想法進行基准測試是非常重要的。因此,我們以Python pickle文件(用於使用我們的框架訓練的代理)和JSON數據文件(用於與其他框架訓練的代理進行比較)的形式提供了受Arcade學習環境支持的60個游戲的完整訓練數據。我們還提供了一個網站,可以在上面快速查看所有的訓練運行情況。下圖展示了我們的4個代理在Seaquest上的訓練運行情況。
x軸表示迭代,其中每次迭代是100萬個游戲幀(4.5小時的實時游戲);y軸是每場比賽獲得的平均分數;陰影區域顯示來自5次獨立運行的置信區間。
我們還提供這些代理訓練的深度網絡、原始統計日志以及Tensorflow事件文件。這些都可以從我們的網站上下載。
開源項目地址:https://github.com/google/dopamine
可視化網站:https://google.github.io/dopamine/baselines/plots.html
相關下載鏈接:https://github.com/google/dopamine/tree/master/docs#downloads
想了解更多關於強化學習的內容,請參看下面的文章:
查看英文原文:https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html


