ML-Agents（八）PushBlock

本文轉載自查看原文 2020-04-27 20:58 1491 ML-Agents

ML-Agents（八）PushBlock

ML-Agents（八）PushBlock

一、前言

我們這次來學習一個新的實例——Push Block。這個示例的效果如下：

pushblock

如圖可以看到，這個示例訓練的效果就是讓agent把白色的方塊推到場景中綠色條形區域就算完成任務。注意每完成一次任務，重置的時候地面會顯示綠色，表明此次agent成功將白色方塊推到目標區域，若失敗，則地面會顯示一下紅色。

我們可以先根據之前示例，想一下這個agent應該如何進行訓練。首先可能想到的應該是利用Viusal Observations來對這個功能進行訓練，其實本質上這個示例和Grid World有點相似，利用Render Texture Sensor或者Camera Sensor來對其進行訓練。實際上官方在Push Block示例中，也有個場景叫VisualPushBlock，這個場景就是想嘗試使用Camera Sensor來對agent進行訓練，你還會發現它使用的是第一人稱攝像機，當然官方並沒有把這個訓練完成（即沒有訓練模型）。

這個示例主要我們可以學習到的就是如何利用射線傳感器進行數據采集，即Ray Perception Sensor。這個傳感器主要分為2D和3D兩個類別，分別適用於二維和三維。Push Block則采用了Ray Perception Sensor 3D類型。

下面老規矩，先來看看官方對該示例的參數。

二、環境與訓練參數

設定：在一個平台環境中，agent可以推動方塊移動。
目標：Agent必須推動方塊到目標位置。
Agents：一個訓練環境只包含一個agent。
Agent獎勵設定：
- 每走一步懲罰0.0025。
- 如果白色方塊移動到目標位置，則獎勵1。
行為參數
- 矢量觀測空間：（Continusous）70個觀測變量分別對應14個射線投射（ray-casts），每條射線探測三個可能的目標（牆、目標區域或方塊）之一。即一條射線要么啥都沒探測到，要么探測到的目標為牆、目標區域或方塊三者之一。注意這里的目標區域其實也是有一個Box Collider使得射線可以檢測到。
  
  這里有個疑問，70個觀測變量怎么來的= =。有知道的小伙伴可以留言討論一下~（在寫后面的時候突然發現怎么算出來的了，具體在三、場景基本結構中解釋Ray Perception Sensor Component 3D組件部分）
- 矢量動作空間：Discrete Type，6個變量，分別對應小agent順時針、逆時針方向旋轉以及前、后、左、右四哥方向的移動。
- 視覺觀察（可選）：使用第一人稱攝像機，示例在VisualPushBlock場景中。但是官方文檔也說了，Push Block的視覺觀察版本並不使用提供的默認訓練參數進行訓練，也就是說如果想利用視覺觀測值進行訓練，需要自己調試一下訓練參數。
可變參數：4個
- block_size：白方塊在x、z方向上的比例，通俗來說就是白色方塊的大小，越小的話肯定訓練開始使越難找到。
  - 默認：2
  - 推薦最小值：0.5
  - 推薦最大值：4
- dynamic_friction：地面的動摩擦系數，即運動物體與地面之間的摩擦系數
  - 默認：0
  - 推薦最小值：0
  - 推薦最大值：1
- static_friction：地面的靜摩擦系數，即靜止物體與地面的摩擦系數
  - 默認：0
  - 推薦最小值：0
  - 推薦最大值：1
- block_drag：空氣阻力對方塊的影響
  - 默認：0.5
  - 推薦最小值：0
  - 推薦最大值：2000
以上參數中后三個：dynamic_friction、static_friction和block_drag其實都是調整agent小藍塊推動白色方塊的難易程度，摩擦系數或者空氣阻力越大，那么agent就越難推動白色方塊，或者推動得越慢。
基准平均獎勵：4.5

三、場景基本結構

場景中包含了32個訓練單元，如下圖：

我們先從上到下介紹一下簡單的東西：SingleCam是場景渲染相機，即運行時觀察的場景；PuashBlockSettings是設置環境一些高級物理設置以及專對PushBlock的設置，例如agent的速度，旋轉速度等等；剩下就是UI、光源等，沒必要詳細介紹。

主要來看一下基本訓練單元Area的結構，如下圖：

其中：

Agent

是我們要訓練的代理，藍色的小方塊。它身上不僅有Push Agent Basic訓練腳本，還有兩個Ray Perception Sensor Component 3D組件。我們可以先來看一下射線組件是怎么樣的，如下圖：

首先我們的agent身上是有兩個Ray Perception Sensor的，分為上層和下層，每一層上又有7條射線投射出。為什么分為兩層呢？我們來看一下圖就明白了：

這里先忽略圖中的字樣，有繪制空心球的地方就是射線檢測碰撞到的地方。如果小藍只有底下一層Ray Sensor的話，當小藍推動小白時，小藍的前方射線勢必會被小白遮擋幾條，這就相當於小藍被帶了眼罩看不清前方。因此為了防止這種情況，我們給小藍的上方又加了一層ray sensor，這一層射線是永遠不會被小白遮擋的，所以小藍才有了兩層Ray Sensor的原因。

除此之外，我發現官方做的Ray Sensor還有個小細節，就是在IDE下，射線檢測碰撞的距離遠近會影響到繪制的線條顏色變化，之前我以為只是單一的碰撞到檢測即變為紅色，仔細發現並不是。不過這個細節設計的難度應該不難，簡單想一下，應該是顯示的顏色=射線檢測的距離/射線可檢測的最大距離*顏色顯示的閾值范圍（RGB），我瞎猜的，估計差不多就這么算的。

我們下面來看一下Ray Perception Sensor Component 3D組件的屬性各代表什么意思：
- Sensor Name：該Sensor的名字，類似於ID，注意在小藍身上的兩個名字不同哦，一個是RayPerceptionSensor，另一個是OffsetRayPerceptionSensor。
- Detectable Tags：設置射線能檢測到物體的Tag集合。這里設置了3個Tag，分別代表了場景中的目標小白塊、目標區域和牆體。
- Rays Per Direction：射線的條數，為0的時候就只有一條向前的射線，詳情看下圖：
- Max Ray Degrees：射線覆蓋的角度范圍，可看下圖：
- Sphere Cast Radius：設置碰撞空心線球的半徑，如下圖：
- Ray Length：設置射線投射的最遠距離。
- Ray Layer Mask：設置射線可以檢測到的Layer。
- Observation Stacks：堆疊之前觀察的結果的數量，若設置為1則表示不堆疊以前的觀察。
  
  這里插一下，在看這個屬性的時候，突然發現前面環境與訓練參數中為啥是70個觀測變量參數了，具體在RayPerceptionSensorComponentBase腳本中有一個GetObservationShape()方法：
  
  這里numRays=7，numTags=3，則obsSize=(3+2)*7=35，而一個小藍身上又有兩個Sensor，則需要收集的觀測變量為35*2=70個。
- Start Vertical Offset：調整射線發出的角度，如下圖：
- End Vertical Offset：相對於上面的屬性，這里可以設置射線尾部的角度，如下圖：
- Debug Gizmos中的Ray Hit Color和Ray Miss Color則是分別設置射線碰撞檢測到物體線條的顏色以及未檢測到時線條的顏色。
好的，上面介紹了一下Ray Sensor 3D組件，我們繼續回來，來看看一個訓練單元Area上其他的物體。
Goal

目標區域，注意該區域並不只是地面顯示的顏色，而且還帶有一個碰撞體，來使得小藍辨認以及小白碰撞區域檢測。
Block

小白塊，上面有一個Goal Detect.cs腳本，用來檢測小白是否被推入目標區域。
Ground和WallsOuter

牆體和地面，沒什么好說的~

四、代碼分析

這個示例相對來說比較簡單，我們直接從小藍身上的Push Agent Basic開始看起。

Agent腳本

Agent初始化

using System.Collections;
using UnityEngine;
using MLAgents;

public class PushAgentBasic : Agent
{
    //地面，需要更根據任務完成情況更換地面材質
    public GameObject ground;

    //整個訓練單元，開局時可能隨機改變角度
    public GameObject area;

    [HideInInspector]
    public Bounds areaBounds;//地面碰撞體的邊界

    //Push Block示例的設置，設置小藍的速度、旋轉角度等
    PushBlockSettings m_PushBlockSettings;

    public GameObject goal;//目標區域
    public GameObject block;//小白塊

    [HideInInspector]
    public GoalDetect goalDetect;//小白塊上判定進入目標區域腳本

    public bool useVectorObs;//該選項應該是之前留下的，此代碼中無用

    Rigidbody m_BlockRb;  //小白塊剛體
    Rigidbody m_AgentRb;  //小藍剛體
    Material m_GroundMaterial; //地面原始材質

    //地面Renderer
    Renderer m_GroundRenderer;

    void Awake()
    {
        //找到Push Block初始配置
        m_PushBlockSettings = FindObjectOfType<PushBlockSettings>();
    }
    /// <summary>
    /// 初始化Agent
    /// </summary>
    public override void InitializeAgent()
    {
        base.InitializeAgent();
        //設置小白腳本里的agent為小藍
        goalDetect = block.GetComponent<GoalDetect>();
        goalDetect.agent = this;

        m_AgentRb = GetComponent<Rigidbody>();
        m_BlockRb = block.GetComponent<Rigidbody>();
        areaBounds = ground.GetComponent<Collider>().bounds;
        
        //拿到地面的的renderer，使得當小藍完成任務或未完成任務時替換地面材質
        m_GroundRenderer = ground.GetComponent<Renderer>();
        //緩存地面原始材質
        m_GroundMaterial = m_GroundRenderer.material;
        //設置可變參數
        SetResetParameters();
    }
    /// <summary>
    /// 設置可變參數
    /// </summary>
    public void SetResetParameters()
    {
        //設置地面的兩個可變參數：動摩擦系數+靜摩擦系數
        SetGroundMaterialFriction();
        //設置小白塊的兩個可變參數：小白的X、Z方向的比例大小以及小白的所受空氣阻力
        SetBlockProperties();
    }
    /// <summary>
    /// 設置地面可變參數
    /// </summary>
    public void SetGroundMaterialFriction()
    {
        var resetParams = Academy.Instance.FloatProperties;
        var groundCollider = ground.GetComponent<Collider>();

        groundCollider.material.dynamicFriction = resetParams.GetPropertyWithDefault("dynamic_friction", 0);
        groundCollider.material.staticFriction = resetParams.GetPropertyWithDefault("static_friction", 0);
    }
	/// <summary>
    /// 設置小白可變參數
    /// </summary>
    public void SetBlockProperties()
    {
        var resetParams = Academy.Instance.FloatProperties;
        var scale = resetParams.GetPropertyWithDefault("block_scale", 2);
        //小白的比例
        m_BlockRb.transform.localScale = new Vector3(scale, 0.75f, scale);
        //小白的空氣摩擦阻力
        m_BlockRb.drag = resetParams.GetPropertyWithDefault("block_drag", 0.5f);
    }
}

以上代碼沒什么特別要講的，只用注意之前沒詳細講過的一個函數GetPropertyWithDefault(string key,float defaultValue)，這個函數一般用於可變參數的設置，第一個是你要設置的可變參數的key，這個與你要訓練的可變參數配置文件中的部分一一對應，如下圖是當時在ML-Agents（四）3DBall補充の引入泛化中對3D Ball里的可變參數訓練文件：

resampling-interval: 5000

mass:
    sampler-type: "uniform"
    min_value: 0.5
    max_value: 10

gravity:
    sampler-type: "uniform"
    min_value: 7
    max_value: 12

scale:
    sampler-type: "uniform"
    min_value: 0.75
    max_value: 3

里面的mass、gravity和scale就是在程序中設置的key一一對應。當然如果沒有訓練時，這個key所對應的值為空，則GetPropertyWithDefault(string key,float defaultValue)會取第二個默認參數。

Agent重置

重置代碼有一點有意思的地方，先上源碼：

    /// <summary>
    /// Agent重置，在Done()時會自動調用
    /// </summary>
    public override void AgentReset()
    {
        //使整個平台（訓練單元）隨機旋轉角度0，90，180，270
        var rotation = Random.Range(0, 4);
        var rotationAngle = rotation * 90f;
        area.transform.Rotate(new Vector3(0f, rotationAngle, 0f));
        //重置小白
        ResetBlock();
        //重置小藍
        transform.position = GetRandomSpawnPos();
        m_AgentRb.velocity = Vector3.zero;
        m_AgentRb.angularVelocity = Vector3.zero;
        //重置可變參數
        SetResetParameters();
    }
	/// <summary>
    /// 當小藍推動小白到目標區域時調用，注意這里調用是小白的腳本GoalDetect.cs調用的
    /// </summary>
    public void ScoredAGoal()
    {
        //到達目標區域，獎勵5
        AddReward(5f);
        //調用Agent的Done()函數，此時AgentReset()函數會自動執行
        Done();
        //設置地面亮綠色0.5秒
        StartCoroutine(GoalScoredSwapGroundMaterial
                       (m_PushBlockSettings.goalScoredMaterial, 0.5f));
    }
    /// <summary>
    /// 設置地面材質為綠色
    /// </summary>
    IEnumerator GoalScoredSwapGroundMaterial(Material mat, float time)
    {
        m_GroundRenderer.material = mat;//地面設置為綠色
        yield return new WaitForSeconds(time); //等待0.5s后，換回原先材質
        m_GroundRenderer.material = m_GroundMaterial;
    }
    /// <summary>
    /// 重置小白的位置和速度
    /// </summary>
    void ResetBlock()
    {
        //小白的位置隨機重置
        block.transform.position = GetRandomSpawnPos();
        //使小白的速度置零
        m_BlockRb.velocity = Vector3.zero;
        //使小白的角速度置零
        m_BlockRb.angularVelocity = Vector3.zero;
    }
	/// <summary>
    /// 利用地面的Bounds范圍以及碰撞關系來隨機生成小白以及小藍出現的位置
    /// </summary>
    public Vector3 GetRandomSpawnPos()
    {
        var foundNewSpawnLocation = false;
        var randomSpawnPos = Vector3.zero;
        while (foundNewSpawnLocation == false)
        {
            //隨機找兩個值X、Z，注意這里的m_PushBlockSettings.spawnAreaMarginMultiplier系數
            var randomPosX = Random.Range(-areaBounds.extents.x * m_PushBlockSettings.spawnAreaMarginMultiplier,
                areaBounds.extents.x * m_PushBlockSettings.spawnAreaMarginMultiplier);
            var randomPosZ = Random.Range(-areaBounds.extents.z * m_PushBlockSettings.spawnAreaMarginMultiplier,
                areaBounds.extents.z * m_PushBlockSettings.spawnAreaMarginMultiplier);
            //判斷隨機的位置附近是否存在碰撞體，若存在則繼續隨機生成位置，
            //直到生成的位置附近沒有其他碰撞體
            randomSpawnPos = ground.transform.position + new Vector3(randomPosX, 1f, randomPosZ);
            if (Physics.CheckBox(randomSpawnPos, new Vector3(2.5f, 0.01f, 2.5f)) == false)
            {
                foundNewSpawnLocation = true;
            }
        }
        return randomSpawnPos;
    }

以上代碼大部分都很簡單，每次訓練完成的條件就是小白被推入目標區域，然后調用小藍身上的ScoredAGoal()函數，使得整個訓練重置。

有意思的是最后一部分GetRandomSpawnPos()方法，即隨機生成小藍和小白位置方法。首先先看這個代碼前半部分，隨機的X、Z值除了隨機生成，還乘以了m_PushBlockSettings.spawnAreaMarginMultiplier參數，該參數是PushBlockSettings.cs腳本中的，有了它的相乘，則規定了小白和小藍出現的位置占場地的百分比，可以參考下圖來理解：

圖中的數字大概就是m_PushBlockSettings.spawnAreaMarginMultiplier參數的取值，源碼中該值設置為0.5，則小藍和小白出現的位置就在場地中心50%方形區域范圍內。這里如果值越大，相應訓練的時間也就越長，也符合常理。

其次，在該代碼中還有一個while()循環，這個循環主要是判斷隨機生成的位置周圍是否有其它碰撞體（包括牆體等）。

該段代碼使用了Physics.CheckBox(Vector3 center, Vector3 halfExtents, Quaternion orientation = Quaternion.identity, int layermask = DefaultRaycastLayers, QueryTriggerInteraction queryTriggerInteraction = QueryTriggerInteraction.UseGlobal)函數，當然這個函數參數很多，源碼中就設置了前兩個值，意思就是在center位置生成一個碰撞盒，長寬高分別為halfExtents（x、y、z）的兩倍。如下圖：

如上圖，碰撞盒的尺寸為（5,0.02,5），若小白在圖示位置，而小藍一次隨機的位置在（0,0,0）點處，利用Physics.CheckBox()方法就檢測出了在(0,0,0)點處周圍有小白，因此此次生成的位置(0,0,0)並不能符合要求，然后就繼續while()去重新生成位置，知道小藍和小白離得足夠遠。

這里比較坑的時，注意不能把m_PushBlockSettings.spawnAreaMarginMultiplier這個值設置的太小，太小的話你會發現程序一運行就卡死。也可以想到，如果太小，while會變成死循環，因為沒有足夠的距離使得小白和小藍的距離足夠遠而結束循環。

Agent動作反饋

Agent動作反饋代碼較為簡單：

	/// <summary>
    /// Agent每步動作反饋
    /// </summary>
    public override void AgentAction(float[] vectorAction)
    {
        //利用矢量空間向量移動Agent
        MoveAgent(vectorAction);
        //每步都給予懲罰使得Agent迅速完成任務，這里是-1/5000每步
        AddReward(-1f / maxStep);
    }
    /// <summary>
    /// 根據矢量動作空間action[]來使得Agent作出反應
    /// </summary>
    public void MoveAgent(float[] act)
    {
        var dirToGo = Vector3.zero;//向前向量
        var rotateDir = Vector3.zero;//轉向向量
        var action = Mathf.FloorToInt(act[0]);//act[]取值范圍為0~6，則action取值范圍為0~6

        switch (action)
        {
            case 1:
                dirToGo = transform.forward * 1f;//向后
                break;
            case 2:
                dirToGo = transform.forward * -1f;//向前
                break;
            case 3:
                rotateDir = transform.up * 1f;//向右轉
                break;
            case 4:
                rotateDir = transform.up * -1f;//向左轉
                break;
            case 5:
                dirToGo = transform.right * -0.75f;//向右平移
                break;
            case 6:
                dirToGo = transform.right * 0.75f;//向左平移
                break;
        }
        transform.Rotate(rotateDir, Time.fixedDeltaTime * 200f);//旋轉方向
        m_AgentRb.AddForce(dirToGo * m_PushBlockSettings.agentRunSpeed,
            ForceMode.VelocityChange);//移動
    }

至此，Agent腳本分析完畢。

其他

剩下的腳本主要是在PushBlockSettings物體上的PushBlockSettings腳本，該腳本主要可以設置本示例的公共參數。

using UnityEngine;

public class PushBlockSettings : MonoBehaviour
{
    /// <summary>
    /// Agent的速度
    /// </summary>
    public float agentRunSpeed;
    /// <summary>
    /// Agent的旋轉速度
    /// </summary>
    public float agentRotationSpeed;
    /// <summary>
    /// 使用場地比例乘數，具體作用已在上一節中講述
    /// </summary>
    public float spawnAreaMarginMultiplier;
    /// <summary>
    /// 任務達成時，地面要更換的材質
    /// </summary>
    public Material goalScoredMaterial;
    /// <summary>
    /// 任務失敗時，地面要更換的材質（工程中未用到）
    /// </summary>
    public Material failMaterial;
}

五、訓練

訓練配置參數

基於上一篇ML-Agents（七）訓練指令與訓練配置文件，我們來大概研究一下Push Block的設置：

trainer_config.yaml

PushBlock:
    max_steps: 1.5e7
    batch_size: 128
    buffer_size: 2048
    beta: 1.0e-2
    hidden_units: 256
    summary_freq: 60000
    time_horizon: 64
    num_layers: 2

默認的參數就先不看，主要看PushBlock獨有的設置。

max_steps：設置的很大，說明該次訓練應該還是比較費時間的，不過場景中也相應有32個訓練單元，所以也相應加快了訓練速度。
batch_size：相比默認1024設置的較小，因為此次訓練的矢量動作空間是離散的（Discrete Type），所以設置范圍為32-512。
buffer_size：是batch_size的倍數，范圍為2048-409600。
beta：相比默認設置5.0e-3，該值設置更大，也就意味着在訓練過程中agent的行動更具隨機性，不過如果entropy的下降太慢，則要減小該值。
hidden_units：默認設置為128，該值設置為256，原因是此示例相對來說觀察變量之間的交互復雜度更高，因此該值需要更大。
summary_freq：該值設置多久保存一次統計數據，主要決定在tensorboard中顯示數據點的數量。由於該訓練max_steps較大，因此該值也相對默認值10000設置的大。
time_horizon：如果在一個episode里，agent頻繁獲得獎勵或episode數量非常大的情況下，該值需要更小。對應於本示例訓練，由於每一步都懲罰agent，要使其盡快完成訓練，因此該值設置較小（PS.該值范圍為32-2048）。
num_layers：與默認相同，定義在觀察值輸入之后或在視覺觀察的CNN編碼后存在多少個隱藏層。對於簡單的問題，更少的層數可使得訓練更加迅速和高效。對於更加復雜的控制問題，可能需要更多的層（PS.該值的范圍為1-3）。