【強化學習玩轉超級馬里奧】04-stable-baselines3 庫介紹
stable-baselines3庫介紹
github:https://github.com/DLR-RM/stable-baselines3
doc:https://stable-baselines3.readthedocs.io/en/master/
一、stable-baselines3庫是干什么的
Stable Baselines3 (SB3) is a set of reliable implementations of reinforcement learning algorithms in PyTorch. It is the next major version of Stable Baselines.
二、為什么要用公共庫
簡單,方便
三、stable-baselines3簡單實例
import gym
from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env
# Parallel environments
env = make_vec_env("CartPole-v1", n_envs=4)
model = PPO("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=25000)
model.save("ppo_cartpole")
del model # remove to demonstrate saving and loading
model = PPO.load("ppo_cartpole")
obs = env.reset()
# while True:
# action, _states = model.predict(obs)
# obs, rewards, dones, info = env.step(action)
# env.render()
import gym
from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env
# Parallel environments
env = make_vec_env("CartPole-v1", n_envs=4)
model = PPO.load("ppo_cartpole")
obs = env.reset()
# while True:
# action, _states = model.predict(obs)
# obs, rewards, dones, info = env.step(action)
# env.render()
四、沒有訓練的效果
import gym
env = gym.make("CartPole-v1")
done = True
for step in range(5000):
if done:
state = env.reset()
state, reward, done, info = env.step(env.action_space.sample())
env.render()
env.close()
五、不使用並行環境
import gym
from stable_baselines3 import PPO
env = gym.make("CartPole-v1")
model = PPO("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=200)
model.save("ppo_cartpole1")
del model # remove to demonstrate saving and loading
model = PPO.load("ppo_cartpole1")
obs = env.reset()
done = True
while True:
if done:
state = env.reset()
action, _states = model.predict(obs)
obs, rewards, done, info = env.step(action)
env.render()
視頻位置
強化學習玩超級馬里奧【2022 年 3 月最新】(學不會可以來打我)_嗶哩嗶哩_bilibili
https://www.bilibili.com/video/BV1iL411A7zo?spm_id_from=333.999.0.0
強化學習庫 Stable-Baselines3_嗶哩嗶哩_bilibili
https://www.bilibili.com/video/BV1ca41187qB?spm_id_from=333.999.0.0
超參數調優框架 optuna_嗶哩嗶哩_bilibili
https://www.bilibili.com/video/BV1ni4y1C7Sv?spm_id_from=333.999.0.0
強化學習玩超級馬里奧-讀書編程筆記
https://fanrenyi.com/lesson/48
超參數調優框架 optuna-讀書編程筆記
https://fanrenyi.com/lesson/49
強化學習庫 Stable-Baselines3-讀書編程筆記
https://fanrenyi.com/lesson/50
《強化學習玩超級馬里奧》課程講解如何用強化學習來訓練超級馬里奧。本課程是保姆級教程,通俗易懂,一步步帶你敲代碼。深度學習庫用的 Pytorch,強化學習庫用的是 Stable-Baselines3,超參數調優框架用的是 Optuna。代碼及資料 github 地址:【 https://github.com/fry404006308/fry_course_materials/tree/master 】中的【220310_強化學習玩馬里奧】
代碼 github 位置
fry_course_materials/220310_強化學習玩馬里奧 at master · fry404006308/fry_course_materials · GitHub
https://github.com/fry404006308/fry_course_materials/tree/master/220310_強化學習玩馬里奧
博客位置
其它更多博客內容可以去 github 代碼中查看
https://github.com/fry404006308/fry_course_materials/tree/master/
【強化學習玩轉超級馬里奧】05-最最簡單的超級馬里奧訓練過程 - 范仁義 - 博客園
https://www.cnblogs.com/Renyi-Fan/p/16021552.html
【強化學習玩轉超級馬里奧】04-stable-baselines3 庫介紹 - 范仁義 - 博客園
https://www.cnblogs.com/Renyi-Fan/p/16021529.html
【強化學習玩轉超級馬里奧】03-馬里奧環境代碼說明 - 范仁義 - 博客園
https://www.cnblogs.com/Renyi-Fan/p/16021518.html
【強化學習玩轉超級馬里奧】02-運行超級馬里奧 - 范仁義 - 博客園
https://www.cnblogs.com/Renyi-Fan/p/16021507.html
【強化學習玩轉超級馬里奧】01-nes-py 包安裝實例 - 范仁義 - 博客園
https://www.cnblogs.com/Renyi-Fan/p/16021496.html
【強化學習玩轉超級馬里奧】01-超級馬里奧環境安裝 - 范仁義 - 博客園
https://www.cnblogs.com/Renyi-Fan/p/16021460.html
【強化學習玩轉超級馬里奧】00-強化學習玩馬里奧課程介紹 - 范仁義 - 博客園
https://www.cnblogs.com/Renyi-Fan/p/16021398.html
課程內容
【強化學習玩轉超級馬里奧】00-強化學習玩馬里奧課程介紹
【強化學習玩轉超級馬里奧】01-超級馬里奧環境安裝
【強化學習玩轉超級馬里奧】01-nes-py 包安裝實例
【強化學習玩轉超級馬里奧】02-運行超級馬里奧
【強化學習玩轉超級馬里奧】03-馬里奧環境代碼說明
【強化學習玩轉超級馬里奧】04-stable-baselines3 庫介紹
【強化學習玩轉超級馬里奧】05-最最簡單的超級馬里奧訓練過程
【強化學習玩轉超級馬里奧】06-1-預處理與矢量化環境-預處理
【強化學習玩轉超級馬里奧】06-2-預處理與矢量化環境-矢量化環境
【強化學習玩轉超級馬里奧】07-1-模型訓練參數設置-模型訓練參數設置
【強化學習玩轉超級馬里奧】07-2-模型訓練參數設置-修改參數接着訓練
【強化學習玩轉超級馬里奧】07-3-模型訓練參數設置-打印模型的參數
【強化學習玩轉超級馬里奧】08-保存最優模型
【強化學習玩轉超級馬里奧】09-1-隔多少步保存模型
【強化學習玩轉超級馬里奧】09-2-隔多少步保存模型-測試保存的模型
【強化學習玩轉超級馬里奧】10-階段二訓練與測試
【強化學習玩轉超級馬里奧】11-超參數調優庫 optuna 介紹
【強化學習玩轉超級馬里奧】12-1-optuna 庫選擇超參數-optuna 庫選擇超參數
【強化學習玩轉超級馬里奧】12-2-optuna 庫選擇超參數-超參數選擇具體實例
【強化學習玩轉超級馬里奧】12-3-optuna 庫選擇超參數-測試超參數調優出來的模型
【強化學習玩轉超級馬里奧】13-用選好超參數的模型去訓練