強化學習框架RLlib教程001：Ray和RLlib介紹

本文轉載自查看原文 2020-10-02 11:22 2504 0065.強化學習框架RLlib介紹

從上圖可以看出，最底層的分布式計算任務是由Ray引擎支撐的。倒數第二層表明RLlib是對特定的強化學習任務進行的抽象。第二層表示面向開發者，我們可以自定義算法。最頂層是RLlib對一些應用的支持，比如：可以讓智能體在離線的數據、Gym或者Unit3d的環境中進行交互等等。

RLlib之於Ray就如同MLlib之於Spark。

返回目錄

簡單的代碼風格

from ray import tune
from ray.rllib.agents.ppo import PPOTrainer
tune.run(PPOTrainer, config={"env": "CartPole-v0"})  # "log_level": "INFO" for verbose,
                                                     # "framework": "tfe" for tf-eager,
                                                     # "framework": "torch" for PyTorch

上面三行代碼就可以訓練一個玩平衡桿游戲的智能體。

接下來，我們將介紹RLlib中的三個關鍵概念:Policies, Samples, and Trainers.

返回目錄

Policies

策略是RLlib中的核心概念。簡而言之，policies是定義agent 如何在環境中工作的Python類。Rollout workers查詢策略以確定agent 的動作。在gym 中，只有一個agent 和policy。在vector envs中，策略推理是針對多個代理的，在多代理中，可能有多個策略，每個策略控制一個或多個代理:

返回目錄

Sample Batches

無論是在單個進程中運行還是在大型集群中運行，RLlib中的所有數據交換都是以批樣的形式進行的。采樣批次編碼一個軌跡的一個或多個片段。通常，RLlib從rollout worker中收集大小為rollout_fragment_length的批，並將一個或多個批連接到大小為train_batch_size的批中，該批是SGD的輸入。

一個典型的樣例批處理如下所示。由於所有的值都保存在數組中，這允許有效的編碼和傳輸的網絡:

{ 'action_logp': np.ndarray((200,), dtype=float32, min=-0.701, max=-0.685, mean=-0.694),

'actions': np.ndarray((200,), dtype=int64, min=0.0, max=1.0, mean=0.495),

'dones': np.ndarray((200,), dtype=bool, min=0.0, max=1.0, mean=0.055),

'infos': np.ndarray((200,), dtype=object, head={}),

'new_obs': np.ndarray((200, 4), dtype=float32, min=-2.46, max=2.259, mean=0.018),

'obs': np.ndarray((200, 4), dtype=float32, min=-2.46, max=2.259, mean=0.016),

'rewards': np.ndarray((200,), dtype=float32, min=1.0, max=1.0, mean=1.0),

't': np.ndarray((200,), dtype=int64, min=0.0, max=34.0, mean=9.14)}

在多代理模式下，每個策略下的sample batches會被分別收集。

返回目錄

Training