ML-Agents（九）Wall Jump

本文轉載自查看原文 2020-05-06 21:19 914 ML-Agents

ML-Agents（九）Wall Jump

ML-Agents（九）Wall Jump

一、前言

這次我們來看一下Wall Jump示例，這個例子又和我們之前學習的示例不同，它引用了Curriculum Learning（課程學習）的學習方法，簡單來講就是使用授課學習的方式來訓練神經網絡，學習的樣本從易到難，模擬人類學系的過程。先來看看本示例的最終效果：

walljump1

由圖中可以看到本示例的效果，小藍需要越過藍色的牆體到達綠色的目標地點，此外還可以留意到，藍色的牆體高度是隨機變化的：當藍色的牆體較高時，小藍推動大白塊當梯子才能越過牆體；當藍色牆體高度較低時，小藍則可以直接跳躍過去。

因此，在本示例中，小藍擁有兩個訓練好的訓練模型——SmallWallJump和BigWallJump，分別對應矮牆（無牆）和高牆情況下的行動。

下面我們先來學習一下官方對於Curriculum Learning的相關文檔。

二、課程訓練（Curriculum Learning）

這一節內容主要是翻譯官方文檔 Training with Curriculum Learning。

首先文檔介紹了課程學習是ML-Agents的一項功能，它允許在訓練的過程中更改環境的屬性來幫助學習。

一個教學示例

先想象一個任務，agent需要越過一堵牆到達目標位置（其實就是Jump Wall）。一開始訓練agent來完成該任務其實是一個隨機策略。因此直接訓練的話，開始的策略將使agent在循環中運行，並且可能永遠，或者很少正確地越過牆體到達目標以獲得獎勵（意思就是一開始要是訓練難度過大，agent可能很難理解自己要達成的目標）。如果我們從一個更簡單的任務開始，例如讓agent朝着一個無障礙的目標前進，那么agent則會很容易地學會完成任務。在此基礎上，我們再通過增加牆體的大小來慢慢增加任務的難度，直到agent可以完成最初幾乎不可能完成的任務（就是小藍通過大白塊間接越過高牆）。下圖展示了任務由易到難的過程：

具體實現

在一個訓練環境中，具有相同Behavior Name的每一組Agent具有相同的課程。這些課程被稱為"metacurriculum"（元課程）。元課程允許不同組的agent在同一環境中學習不同的課程。

指定課程

為了定義課程，第一步是確定環境的哪些參數會變化。在Wall Jump示例環境中，牆的高度則是這個變量。我們將牆的高度定義為Academy.Instance.EnvironmentParameters中可以訪問的Environment Parameters參數，並通過這樣做使得Python API來對其調整。我們將創建一個YAML配置文件來描述課程過程，而不是通過手動來調整課程。通過該配置文件，我們可以指定牆在訓練的某個階段開始改變高度，既可以通過訓練總步數的百分比來設置，也可以通過agent獲得的平均獎勵來設置（Wall Jump中用的是第一種）。下面來看一會下Wall Jump環境課程的示例配置。

BigWallJump:
  measure: progress
  thresholds: [0.1, 0.3, 0.5]
  min_lesson_length: 100
  signal_smoothing: true
  parameters:
    big_wall_min_height: [0.0, 4.0, 6.0, 8.0]
    big_wall_max_height: [4.0, 7.0, 8.0, 8.0]

SmallWallJump:
  measure: progress
  thresholds: [0.1, 0.3, 0.5]
  min_lesson_length: 100
  signal_smoothing: true
  parameters:
    small_wall_height: [1.5, 2.0, 2.5, 4.0]

在配置的頂層是Behavior Name，即對應於agent的行為名稱（在Unity中的設置）。每種行為的課程都有以下參數：

measure：衡量學習進度和課程進度的方法。
- reward：使用獎勵來衡量。
- progress：使用steps/max_steps比例來衡量。
thresholds(float array)：配合measure使用，應當改變課程的階段。

簡單解釋一下以上兩個屬性，以Wall Jump為例，其measure屬性為progress，對應thresholds為[0.1,0.3,0.5]，其含義是：

一開始訓練時，牆的高度變化范圍是0-4（參考下面parameters參數）；當steps/max_steps=0.1（當前訓練步數/總訓練步數=0.1）時，改變一次牆的高度范圍（對應下面參數為4.0-7.0）；當steps/max_steps=0.3時，在改變一次牆的高度范圍（6.0-8.0）；當steps/max_steps=0.5時，牆的高度固定為8.0。
min_lesson_length(int)：在課程改變之前，應該完成的episodes最小數量。如果measure設置為reward，則將使用最后min_lesson_length episodes的平均獎勵來確定課程是否應該改變。必須是非負數。

重要：與thresholds比較的平均獎勵不同於控制台（Console）中記錄的平均獎勵。例如，如果min_lesson_length為100，那么在最近100的episodes的平均累積獎勵超過當前thresholds設置的值后，課程將改變。記錄到控制台的平均獎勵是由配置文件中summary_freq參數決定的。
signal_smoothing(true/false)：是否通過以前的值來衡量當前的進度。
- 如果設置為true，則權重將由老的0.25變為新的0.75。
parameters(dictionary: key(string),value(float array))：對應於要控制的環境參數。每個數組的長度應該大於thresholds的數目。具體的意思在上面也有解釋。

一旦我們定義好課程配置，我們就必須使用定義的環境參數，並通過agent的OnEpisodeBegin()函數來修改環境。具體我們在后面的章節介紹Wall Jump的Agent腳本時再來看。

開始訓練

至此，我們指定好了我們的課程配置文件，然后通過ml-agents命令台中使用-curriculum命令字來指定我們的配置文件，PPO將使用課程學習進行訓練。例如下面要通過課程學習訓練Wall Jump，在控制台中可以輸入：

mlagents-learn config/trainer_config.yaml --curriculum=config/curricula/wall_jump.yaml --run-id=wall-jump-curriculum

主要是留意--curriculum命令字的使用。

Note：如果要恢復使用課程的訓練，在mlagents-learn時使用--lesson標志來輸入最后課程的編號。

至此，我們大概了解了在ML-Agents中課程訓練的配置文件，下面我們開始正式學習Wall Jump示例。

三、環境與訓練參數

設定：一個平台環境中，agent可以跳過一堵牆。
目標：Agent必須使用方塊越過牆體到達目的地。
Agents：環境中包含一個鏈接到兩個不同模型的agent。Agent的策略鏈接改變取決於牆的高度（即牆低的時候<4時，采用SmallWallJump訓練，牆高度>4時，采用BigWallJump訓練）。策略的改變在WallJumpAgent腳本中實現，下面看代碼會有介紹。
Agent獎勵設定：
- 每一步-0.0005。
- 如果agent到達目的地，則+1.0。
- 如果agent從平台上掉落，則-1.0。
行為參數：
- 矢量觀測空間：74個變量，對應於14條射線（ray casts），每條射線檢測四個物體。再加agent的世界坐標以及agent是否已接地。
- 矢量動作空間：離散（Discrete），4個分支，分別是
  - 前后移動：前移、后移、No Action
  - 旋轉：左旋轉、右旋轉、No Action
  - 左右移動：左平移、右平移、No Action
  - 跳躍：跳躍、NoAction
- 視覺觀察值：無
可變參數：4個
基准平均獎勵（Big && Small Wall）：0.8

四、場景基本構成

場景中包含24個訓練單元，訓練單元之間都相隔較遠距離，如下圖：

PlayerCam

PlayerCam是我們一開始游戲的相機，對應於第一個訓練單元：
OverviewCam

OverviewCam是一個鳥瞰相機，注意它是在Display 2中，具體效果如下：

這個相機目前沒發現什么特殊的用途，感覺應該是想把所有的訓練單元都納入，於是我自己調整了一下，就變成如下效果：

這個視圖還是有一點好處，就是之后我們在訓練的時候，因為這個示例也和上一次講的PushBlock示例一樣，當小藍完成任務地面就變綠閃一下；當小藍任務失敗或者掉落平台，地面就變紅閃一下。用這種鳥瞰視圖就很容易看出來你訓練的效果怎么樣，例如一開始應該是紅色閃的多，越到后面就是綠色閃的多，由此來看訓練效果。
WallJumpSettings

WallJumpSettings物體依舊是設置了一些全局變量，主要有小藍的速度、小藍跳躍的高度等。
WallJumpArea

WallJumpArea是一個基本的訓練單元，主要有以下物體：

這里面的構成和PushBlock里的很相似，沒什么太難的點。主要說一下SpawnVolume，這個對象在運行的時候就令它SetActive(false)了。那為什么還需要這個對象呢？其實是在Agent的腳本里，利用了該對象的Bounds，即控制大白塊的位置是隨機產生在該區域里的。

其他的物體沒什么好說的，下面我們直接進入代碼環節。

五、代碼分析

其余代碼都比較簡單，我們主要來研究一下WallJumpAgent.cs腳本。

Agent初始化

using System.Collections;
using UnityEngine;
using MLAgents;
using Barracuda;
using MLAgents.Sensors;

public class WallJumpAgent : Agent
{
    //該值范圍為[0,5]，控制牆體高度以及設置不同的Brain
    int m_Configuration;
    //當牆體高度為0時，采用此Brain
    public NNModel noWallBrain;
    //當牆體高度為1時，采用此Brain（實際上與NoWallBrain是一樣的）
    public NNModel smallWallBrain;
    //當牆體高度大於1時，采用此Brain
    public NNModel bigWallBrain;

    public GameObject ground;//地面，變換地面材質用
    public GameObject spawnArea;//大白塊隨機生成區域
    Bounds m_SpawnAreaBounds;//區域的Bounds

    public GameObject goal;//目標區域
    public GameObject shortBlock;//大白塊
    public GameObject wall;//牆體
    Rigidbody m_ShortBlockRb;//大白塊的剛體
    Rigidbody m_AgentRb;//小藍的剛體
    Material m_GroundMaterial;
    Renderer m_GroundRenderer;
    WallJumpSettings m_WallJumpSettings;//小藍的速度、跳躍高度等設置

    public float jumpingTime;//跳起空中時間
    public float fallingForce;//小藍在空中時下降時所受向下的力
    //判斷小藍是否在落在地上、牆上或大白塊上
    public Collider[] hitGroundColliders = new Collider[3];
    Vector3 m_JumpTargetPos;//跳躍目標位置
    Vector3 m_JumpStartingPos;//起跳位置

    /// <summary>
    /// 初始化Agent
    /// </summary>
    public override void InitializeAgent()
    {
        m_WallJumpSettings = FindObjectOfType<WallJumpSettings>();//獲取全局設定
        m_Configuration = Random.Range(0, 5);//隨機產生牆面高度

        m_AgentRb = GetComponent<Rigidbody>();//獲得小藍的剛體
        m_ShortBlockRb = shortBlock.GetComponent<Rigidbody>();//獲得大白的剛體
        m_SpawnAreaBounds = spawnArea.GetComponent<Collider>().bounds;//獲得大白隨機產生的區域范圍
        m_GroundRenderer = ground.GetComponent<Renderer>();
        m_GroundMaterial = m_GroundRenderer.material;//獲得地面的材質，以備后面改變地面材質

        spawnArea.SetActive(false);
    }
}

初始化內容都比較簡單，注意第一個變量m_Configuration，該變量只標識了牆的高度應該為多少，但並不是指定牆的高度是幾，例如m_Configuration=1時，實際牆的高度會是4而不是1，該值的使用一會兒在ConfigureAgent(int config)方法中講解。下面我們來看Agent收集的環境觀測值。

環境觀測值收集

在第三章環境訓練參數中，我們知道了本示例小藍除了采用了14條射線來收集射線監測數據外，還需要采集自己的世界坐標以及是否接觸地面的信息，這兩種信息在CollectObservations(Vector sensor)方法中進行收集。

	/// <summary>
    /// 收集環境中其他數據
    /// </summary>
    /// <param name="sensor"></param>
    public override void CollectObservations(VectorSensor sensor)
    {
        var agentPos = m_AgentRb.position - ground.transform.position;
        //小藍相對於地面中心的位置，除以20是為了讓其位置x、y、z值歸一化
        sensor.AddObservation(agentPos / 20f);
        //判斷小藍是否落地
        sensor.AddObservation(DoGroundCheck(true) ? 1 : 0);
    }
    /// <summary>
    /// 檢測是否落地
    /// </summary>
    /// <param name="smallCheck">牆的高度是否是低（<=4）</param>
    /// <returns>true為落地，否則為false</returns>
    public bool DoGroundCheck(bool smallCheck)
    {
        if (!smallCheck)
        {//4<牆高度<=8
            hitGroundColliders = new Collider[3];
            var o = gameObject;
            //無GC的相交盒檢測，可采集與相交盒碰撞的碰撞體Collider[]
            //此處賦值給hitGroundColliders
            Physics.OverlapBoxNonAlloc(
                o.transform.position + new Vector3(0, -0.05f, 0),
                new Vector3(0.95f / 2f, 0.5f, 0.95f / 2f),
                hitGroundColliders,
                o.transform.rotation);
            var grounded = false;
            foreach (var col in hitGroundColliders)
            {//遍歷與碰撞盒產生碰撞的物體
                if (col != null && col.transform != transform &&
                    (col.CompareTag("walkableSurface") ||
                     col.CompareTag("block") ||
                     col.CompareTag("wall")))
                {
                    //若碰撞的物體為地面、大白塊或牆體，則判斷小藍已落地
                    grounded = true; //then we're grounded
                    break;
                }
            }
            return grounded;
        }
        else
        {//0<=牆高度<=4
            RaycastHit hit;
            //若牆的高度較低，則只需要向下發出長度為1的射線來檢測小藍是否落地
            Physics.Raycast(transform.position + new Vector3(0, -0.05f, 0), -Vector3.up, out hit,
                1f);
            if (hit.collider != null &&
                (hit.collider.CompareTag("walkableSurface") ||
                 hit.collider.CompareTag("block") ||
                 hit.collider.CompareTag("wall"))
                && hit.normal.y > 0.95f)
            {
                return true;
            }
            return false;
        }
    }

此處代碼中，需要注意DoGroundCheck(bool smallCheck)這個方法，該方法除了在收集觀測值時使用，還在其他3處地方分別使用。

首先該方法是為了檢測小藍是否落地，是則返回true，否則返回false。然后其分別處理了牆面高和低的兩種情況：若牆面較高，則采用無GC的相交盒來檢測小藍的碰撞狀態；若牆面較低，則直接向下發射射線來檢測小藍是否落地。

Physics.OverlapBoxNonAlloc()則是相交盒檢測方法，在上一篇“ML-Agents（八）PushBlock”中介紹了Physics.CheckBox()，該方法與CheckBox()不同的是，CheckBox只會返回bool來判斷是否產生碰撞，而OverlapBox()不僅可以返回bool來判斷是否產生碰撞，而且可以將產生碰撞的Colliders獲取到。

如下圖，我將小藍材質改透明，其中白色的方塊則是代碼中Physics.OverlapBoxNonAlloc()方法產生的相交盒。Physics.OverlapXXXNonAlloc()對應無GC的方式，這里XXX也可以是Sphere和Capsule。

Agent動作反饋

	/// <summary>
    /// Agent動作
    /// </summary>
    /// <param name="vectorAction"></param>
    public override void AgentAction(float[] vectorAction)
    {
        MoveAgent(vectorAction);//小藍移動
        if ((!Physics.Raycast(m_AgentRb.position, Vector3.down, 20))
            || (!Physics.Raycast(m_ShortBlockRb.position, Vector3.down, 20)))
        {//若小藍落下平台或大白塊落下平台
            SetReward(-1f);//懲罰1
            Done();//本次訓練結束，並重置agent
            ResetBlock(m_ShortBlockRb);//重置大白塊位置、速度等
            //設置地面顏色為紅色
            StartCoroutine(
                GoalScoredSwapGroundMaterial(m_WallJumpSettings.failMaterial, .5f));
        }
    }
	/// <summary>
    /// Agent移動
    /// </summary>
    /// <param name="act"></param>
    public void MoveAgent(float[] act)
    {
        AddReward(-0.0005f);//每一步-0.0005
        //判斷小藍是否在地面上，若在地面上則移動速度相應要快一些，在空中的話移動速度要減半
        var smallGrounded = DoGroundCheck(true);//牆低情況
        var largeGrounded = DoGroundCheck(false);//牆高情況

        var dirToGo = Vector3.zero;
        var rotateDir = Vector3.zero;
        var dirToGoForwardAction = (int)act[0];//前后移動
        var rotateDirAction = (int)act[1];//左右旋轉
        var dirToGoSideAction = (int)act[2];//左右移動
        var jumpAction = (int)act[3];//跳躍

        //前后移動
        if (dirToGoForwardAction == 1)
            dirToGo = (largeGrounded ? 1f : 0.5f) * 1f * transform.forward;
        else if (dirToGoForwardAction == 2)
            dirToGo = (largeGrounded ? 1f : 0.5f) * -1f * transform.forward;
        //左右旋轉
        if (rotateDirAction == 1)
            rotateDir = transform.up * -1f;
        else if (rotateDirAction == 2)
            rotateDir = transform.up * 1f;
        //左右平移
        if (dirToGoSideAction == 1)
            dirToGo = (largeGrounded ? 1f : 0.5f) * -0.6f * transform.right;
        else if (dirToGoSideAction == 2)
            dirToGo = (largeGrounded ? 1f : 0.5f) * 0.6f * transform.right;
        //跳躍
        if (jumpAction == 1)
            if ((jumpingTime <= 0f) && smallGrounded)
            {//判斷小藍是否在地上且jumpingTime<=0，初始化起跳變量
                Jump();
            }
        transform.Rotate(rotateDir, Time.fixedDeltaTime * 300f);//旋轉
        m_AgentRb.AddForce(dirToGo * m_WallJumpSettings.agentRunSpeed,
            ForceMode.VelocityChange);//前后左右移動
        
        if (jumpingTime > 0f)
        {//起跳條件滿足
            m_JumpTargetPos =
                new Vector3(m_AgentRb.position.x,
                    m_JumpStartingPos.y + m_WallJumpSettings.agentJumpHeight,
                    m_AgentRb.position.z) + dirToGo;//計算跳躍后控制位置
            //使得小藍跳到計算后的位置m_JumpTargetPos，並限制其速度
            MoveTowards(m_JumpTargetPos, m_AgentRb, m_WallJumpSettings.agentJumpVelocity,
                m_WallJumpSettings.agentJumpVelocityMaxChange);
        }

        if (!(jumpingTime > 0f) && !largeGrounded)
        {//判斷小藍處於空中，給小藍施加向下的力使其下落
            m_AgentRb.AddForce(
                Vector3.down * fallingForce, ForceMode.Acceleration);
        }
        jumpingTime -= Time.fixedDeltaTime;
    }
	/// <summary>
    /// 重置大白塊
    /// </summary>
    /// <param name="blockRb"></param>
    void ResetBlock(Rigidbody blockRb)
    {
        //重置大白塊的位置
        blockRb.transform.position = GetRandomSpawnPos();
        blockRb.velocity = Vector3.zero;//速度置零
        blockRb.angularVelocity = Vector3.zero;//角速度置零
    }
 	/// <summary>
    /// 改變地面材質顏色
    /// </summary>
    /// <returns></returns>
    /// <param name="mat">要換的材質</param>
    /// <param name="time">變換材質后變回原先材質的延時時間</param>
    IEnumerator GoalScoredSwapGroundMaterial(Material mat, float time)
    {
        m_GroundRenderer.material = mat;
        yield return new WaitForSeconds(time); //等待2秒
        m_GroundRenderer.material = m_GroundMaterial;
    }

這里的代碼雖長，但是都比較簡單，屬於一看就懂系列，但是有一個點可以注意一下，即此處小藍起跳以及下落的代碼處理過程，感覺和我見過處理跳躍的方式有一些不同。

Agent重置

	/// <summary>
    /// Agent重置
    /// </summary>
    public override void AgentReset()
    {
        ResetBlock(m_ShortBlockRb);//重置大白塊
        //重置小藍位置
        transform.localPosition = new Vector3(
            18 * (Random.value - 0.5f), 1, -12);
        m_Configuration = Random.Range(0, 5);//重置牆體高度以及選用的Brain
        m_AgentRb.velocity = default(Vector3);//小藍速度置零
    }
	/// <summary>
    /// 檢測小藍是否到達目標區域
    /// </summary>
    /// <param name="col"></param>
    void OnTriggerStay(Collider col)
    {
        if (col.gameObject.CompareTag("goal") && DoGroundCheck(true))
        {//若小藍到目標區域，且在地面上
            SetReward(1f);//獎勵1
            Done();//結束此次訓練
            //使地面置為綠色
            StartCoroutine(
                GoalScoredSwapGroundMaterial(m_WallJumpSettings.goalScoredMaterial, 2));
        }
    }

重置Agent的代碼，一部分實際上是在Unity的方法OnTriggerStay(Collider col)中實現的，因為目標區域其實也是有碰撞體的，因此若小藍Stay在目標區域，則會觸發此函數。

到此為止，我們還沒有看到此示例是如何使用兩個Brain來回切換使用的，下面我們就來看一下這一部分代碼是如何實現的。

其他

void FixedUpdate()
    {
        if (m_Configuration != -1)
        {
            //設置agent的Brain
            ConfigureAgent(m_Configuration);
            //標志位置位
            m_Configuration = -1;
        }
    }

    /// <summary>
    /// 設置Agent的Brain，牆的高低來決定不同的Brain
    /// </summary>
    /// <param name="config">
    /// 如果為0：No wall + noWallBrain
    /// 如果為1：Samll Wall + samllWallBrain
    /// 其他：Tall wall + bigWallBrain
    /// </param>
    void ConfigureAgent(int config)
    {
        var localScale = wall.transform.localScale;//牆的比例大小
        if (config == 0)
        {//如果m_Configuration==0，牆高度為0
            localScale = new Vector3(
                localScale.x,
                Academy.Instance.FloatProperties.GetPropertyWithDefault("no_wall_height", 0),
                localScale.z);
            wall.transform.localScale = localScale;
            //設置agent的Model
            GiveModel("SmallWallJump", noWallBrain);
        }
        else if (config == 1)
        {//如果m_Configuration==1
            localScale = new Vector3(
                localScale.x,
                Academy.Instance.FloatProperties.GetPropertyWithDefault("small_wall_height", 4),
                localScale.z);
            wall.transform.localScale = localScale;
            GiveModel("SmallWallJump", smallWallBrain);
        }
        else
        {//如果m_Configuration>1
            //若開始訓練時，此處的min和max值取決於課程配置值
            var min = Academy.Instance.FloatProperties.GetPropertyWithDefault("big_wall_min_height", 8);
            var max = Academy.Instance.FloatProperties.GetPropertyWithDefault("big_wall_max_height", 8);
            var height = min + Random.value * (max - min);
            localScale = new Vector3(
                localScale.x,
                height,
                localScale.z);
            wall.transform.localScale = localScale;
            GiveModel("BigWallJump", bigWallBrain);
        }
    }

由以上代碼可以看出，其實現是在FixedUpdate()中，實時判斷m_Configuration的值來改變agent不同的Brain，m_Configuration會在訓練一開始以及AgentReset的時候隨機重置。

此外，之前已經講過，Academy.Instance.FloatProperties.GetPropertyWithDefault(string key, float defaultValue)這個方法的第二個參數defaultValue是默認值，若key沒讀取到，則采用輸入的默認值。因此在該示例運行的時候，你會發現牆的高度只有0、4、8這是三個值，但是如果開始訓練后，該方法中的key就會與之前課程配置文件中的值開始對應。

即在SmallWallJump的時候，牆的高度從1.5->2.0->2.5->4.0；在BigWallJump時，牆的高度則一開始會在0-4隨機，然后在4-7隨機，然后在6-8隨機，最后高度固定在8。從此也可以看出課程訓練從易到難的特點。

六、訓練

訓練配置參數

Wall Jump的課程訓練配置已經在上面第二章講解過了，下面我們來看一下Wall Jump的訓練配置：

trainer_config.yaml

SmallWallJump:
    max_steps: 5e6
    batch_size: 128
    buffer_size: 2048
    beta: 5.0e-3
    hidden_units: 256
    summary_freq: 20000
    time_horizon: 128
    num_layers: 2
    normalize: false

BigWallJump:
    max_steps: 2e7
    batch_size: 128
    buffer_size: 2048
    beta: 5.0e-3
    hidden_units: 256
    summary_freq: 20000
    time_horizon: 128
    num_layers: 2
    normalize: false

首先因為要訓練兩個Model，分別對應SmallWallJump和BigWallJump，因此在配置文件中對應的是兩個部分。可以看出Small的max_steps比Big的更小，也好理解，簡單的任務訓練快，難的任務需要訓練步數應該較多。

其他的屬性在前幾篇都已經分析過，所以不再贅述，這里有一個normalize屬性，其作用是是否對輸入的矢量觀測值（vector observation）進行規范化處理。在之前的內容我們知道，規范化對於復雜的連續控制(continuous control)問題很有用，但對於較簡單的離散控制(discrete control)可能反而有害。而且我們在代碼中已經對小藍位置做過規范化處理，因此這里使其變為false。

開始訓練

cd到ml-agents目錄，並輸入一下命令：

mlagents-learn config/trainer_config.yaml --curriculum=config/curricula/wall_jump.yaml --run-id=walljump

開始訓練，一開始會發現失敗的情況更多，如下圖：

walljump2

上面紅色閃爍則為失敗的單元，同時我們觀察Console會發現，SmallWallJump和BigWallJump會隨機穿插進行訓練，如下圖：

訓練了一晚上，發現沒訓練成功。。。。。摔！

由圖可以看到已經訓練9個小時了，但平均收益還是-1.1左右，在Unity中也是失敗的多，沒有什么改觀。

其實這期間我又做了許多次嘗試，包括修改源碼之類的，但是都沒有訓練成功。於是我最終從git上又拉取了最新版的ml-agents（release_1），並重新新建了一個Anaconda訓練環境（具體可參考Unity ML-Agents v0.15.0（一）環境部署與試運行），然后開始訓練，終於得到了比較好的訓練效果：

walljump3