Openai gym是一個用於開發和比較RL算法的工具包,與其他的數值計算庫兼容,如tensorflow或者theano庫。現在主要支持的是python語言,以后將支持其他語言。gym文檔在https://gym.openai.com/docs。
Openai gym包含2部分:
1、gym開源庫:包含一個測試問題集,每個問題成為環境(environment),可以用於自己的RL算法開發。這些環境有共享的接口,允許用戶設計通用的算法。其包含了deep mind 使用的Atari游戲測試床。
2、Openai gym服務:提供一個站點和api允許用戶對他們訓練的算法進行性能比較。
總之,openai gym 是一個RL算法的測試床(testbed)。
在增強學習中有2個基本概念,一個是環境(environment),稱為外部世界,另一個為智能體agent(寫的算法)。agent發送action至environment,environment返回觀察和回報。
gym的核心接口是Env,作為統一的環境接口。Env包含下面幾個核心方法:
1、reset(self):重置環境的狀態,返回觀察。
2、step(self,action):推進一個時間步長,返回observation,reward,done,info
3、render(self,mode=’human’,close=False):重繪環境的一幀。默認模式一般比較友好,如彈出一個窗口。
more…..
了解更多內容請下載下面的pdf文檔: