ML-Agents(四)3DBall補充の引入泛化
前兩天大概研究完3DBall示例,里面的初始化中運用了如下代碼:
public class Ball3DAgent : Agent
{
[Header("Specific to Ball3D")]
public GameObject ball;
Rigidbody m_BallRb;
IFloatProperties m_ResetParams;
public override void InitializeAgent()
{
m_BallRb = ball.GetComponent<Rigidbody>();
m_ResetParams = Academy.Instance.FloatProperties;
SetResetParameters();
}
public void SetBall()
{
m_BallRb.mass = m_ResetParams.GetPropertyWithDefault("mass", 1.0f);
var scale = m_ResetParams.GetPropertyWithDefault("scale", 1.0f);
ball.transform.localScale = new Vector3(scale, scale, scale);
}
public void SetResetParameters()
{
SetBall();
}
}
這里面的m_ResetParams參數初始化讓我沒明白到底是干啥用的,今天翻官方文檔才發現這里參數的意義,簡單來講其實這里是為了訓練出可以適應環境改變的Agent(按官方文檔題目翻譯過來是,訓練廣義強化訓練學習代理),官方文檔中對應的是這一篇《Training Generalized Reinforcement Learning Agents》。
下面的補充其實主要就是對這一點進行補充,同時把官方的這篇文章翻譯一遍,再加一些自己的拙見和理解。
這么做的背景
在訓練agent中的一個問題就是在相同的環境中,agent會趨向於適應這種環境。如此以來,訓練出的模型就不能泛化到環境中的任何調整或者變化,說白了就是只要環境值有任何改變,訓練出的模型就可能失效了。這就類似於在監督學習中使用相同的數據集對模型進行訓練和測試。在使用不同的對象或屬性隨機實例化環境的情況下,這就有問題了。
為了使agent在不同的環境中具有魯棒性和可泛化性,應該針對環境的多種變換對agent進行訓練。當agent使用這種方式進行訓練后,它能更好的(具有更高的性能)適應環境在未來不可見的變化。
通過改變參數(Reset Parameters)來引入泛化
為了可以使得環境多樣化,ml-agents使用了Reset Parameters。Reset Parameters就是Academy單例中的FloatProperties,即Academy.Instance.FloatProperties,它只用在重置環境時使用。Ml-Agents還包含了不同的采樣方法並為每個Reset Parameter創建了新的采樣方法(這里不太懂是啥意思= =)。在3DBall的環境示例中,Reset Parameter(重置參數)則為gravity、ball_mass以及ball_scale。
如何使用重置參數進行泛化
首先,我們需要提供一種方法來修改環境,即設置一組Reset Parameters並隨時間改變它們。這種規定可以是確定性的或是隨機的進行。
這是通過為每個Reset Parameter分配一個sample-type(如統一采樣器)來完成的,該采樣器類型決定了如何對Reset Parameter進行采樣。如果沒有給sampler-type提供Reset Parameter,則參數會在訓練的過程中始終保持默認值並且不會改變。所有管理Reset Parameter采樣器都由Sampler Manager來處理,該管理器也可以在需要的時候處理重置參數的新值生成。(應該就是訓練好的模型拿到Unity中,我就算任意改變小球的質量、比例、重力加速度,都可以使得模型不失效,一會兒我們可以試試,先繼續往后看)
為了安裝Sampler Manager,我們新建一個.YAML配置文件,這個配置文件指定了我們希望如何為每個Reset Parameters生成新樣本。在這個文件中,我們還指定了采集器以及resampling-interval(重新采集間隔數,即模擬多少步后將重置參數重新采樣)。下面來看看3D Ball的采樣器配置文件(路徑在ml-agent源文件下ml-agents\config\3dball_generalize.yaml)。
resampling-interval: 5000
mass:
sampler-type: "uniform"
min_value: 0.5
max_value: 10
gravity:
sampler-type: "multirange_uniform"
intervals: [[7, 10], [15, 20]]
scale:
sampler-type: "uniform"
min_value: 0.75
max_value: 3
對以上參數進行解釋:
resampling-interval:指定了在使用新的Reset Parameters樣本重置環境之前,agent在特定環境配置下要訓練的步數。Reset Parameters:Reset Parameters的名稱集合,例如mass、gravity、scale。這些名稱應該和Academy內部環境中被訓練的agent的名稱匹配(就是指在源代碼中SetBall()方法中,設置重置參數時第一個string參數,需要和這里的配置文件名稱相匹配)。如果環境中不存在文件中指定的參數,那么該參數將會被忽略。sampler-type:指定用於Reset Parameter的采樣器類型。這是Sampler Factory中存在的字符串。sampler-type-sub-arguments:根據sampler-type指定子參數。在上面的配置文件中,sampler-type-sub-arguments就相當於字符串為為gravity的Reset Parameter下的采樣器類型multirange_uniform下的intervals。鍵名應該與采樣器中相應參數的名稱匹配。(見下文)
The Sampler Manager會通過Sample Factory為每一個Reset Parameter分配一個采樣器,采樣器工廠維護了字符串鍵到采樣器對象的字典映射。
采樣器類型
以下是該工具包中包含的采樣器類型的列表:
-
uniform:均勻采樣器 -
通用的采樣器類型定義了兩個float類型的端點,在[
min_value,max_value)范圍內進行均勻采樣。- 子參數:
min_value,max_value
- 子參數:
-
gussian:高斯采樣器- 從以均值和標准差為特征的分布中采樣單個浮點值。指定要使用的高斯分布子參數如下。
- 子參數:
mean,st_dev
-
multirange_uniform:多量程均勻采集器- 在指定的時間間隔之間均勻采樣單個浮點值。首先從間隔列表中選擇一個間隔權重(基於間隔寬度加權)進行采樣,然后從所選間隔中均勻采樣(半封閉間隔,與均勻采樣器相同)。該采樣器可以采用以下列表中的任意數量的間隔:[[
interval_1_min,interval_1_max], [interval_2_min,interval_2_max], ...] - 子參數:
intervals
- 在指定的時間間隔之間均勻采樣單個浮點值。首先從間隔列表中選擇一個間隔權重(基於間隔寬度加權)進行采樣,然后從所選間隔中均勻采樣(半封閉間隔,與均勻采樣器相同)。該采樣器可以采用以下列表中的任意數量的間隔:[[
定義一個新的采樣器類型
如果你想定義一個你自己的采樣器類型,你必須首先繼承Sampler基類(在sampler_class文件中)並保留接口。一旦指定了所需方法的類,還必須在采樣器工廠(Sampler Factory)中注冊它。這一步可以通過訂閱Sampler Factory中的register_sampler方法來完成。命令如下:
SamplerFactory.register_sampler(*custom_sampler_string_key*, *custom_sampler_object*)
如下所示,假設實現了一個新的采樣器類型CustomSampler,並且我們在Sampler Factory中使用字符串customsampler注冊了CustomSampler類。
class CustomSampler(Sampler):
def __init__(self, argA, argB, argC):
self.possible_vals = [argA, argB, argC]
def sample_all(self):
return np.random.choice(self.possible_vals)
然后,我們需要新建一個YAML文件,如下,我們用上面新建的采樣器類型用於Reset Parameter質量。
mass:
sampler-type: "custom-sampler"
argB: 1
argA: 2
argC: 3
使用重置參數進行泛化訓練
在采樣器YAML文件定義好后,我們就可以啟動mlagents-learn並使用--sampler標志來指定配置的采樣器文件進行訓練了。例如,我們想用帶有config/3dball_generalize.yaml采樣設置的Reset Parameters來訓練具有泛化能力的3D Ball agent,那在訓練時輸入以下命令:
mlagents-learn config/trainer_config.yaml --sampler=config/3dball_generalize.yaml --run-id=3DBall_generalization --train

然后進行訓練。會發現小球的大小並不是一成不變的,會在訓練的過程中變大或者變小。

同時可以觀察到小球的質量也會隨機改變,這還挺有意思的。附上tensorboard。

圖中紅色的線是此次加入泛化參數的訓練過程,藍色的是之前正常的訓練過程,可以明顯看到紅色的線相交於藍色的線有明顯的凹凸,這些凹凸基本就是在改變了小球的比例、質量或者重力加速度之后改變的。
現在我們可以將訓練好的模型導入Unity中,試一下。

我們把紅色框里的agent運用剛才泛化訓練后的模型,下面黃色框是沒有泛化訓練的模型,然后運行,我們通過統一調整小球的比例大小,來看有什么現象。

可以看到,下面兩排沒有泛化的模型很快就都掉下平台了,而最上層經過泛化的模型因為可以適應變化而長時間還能保持平衡。通過例子來實踐一下,就立馬明白了這里為什么一開始要對Academy.Instance.FloatProperties進行賦值,就是為了讓訓練出的模型具有更好的魯棒性,來適應復雜多變的環境。在3D Ball里你去改變小球的比例、質量或是重力加速度,應該都可以使得小球處於較長時間的平衡。
總結來說,如果環境中有某些變量,那么就可以引用Reset Parameters來對這些變量隨機取值進行訓練,使得我們訓練之后的結果可以很快適應環境的變化。
寫文不易~因此做以下申明:
1.博客中標注原創的文章,版權歸原作者 煦陽(本博博主) 所有;
2.未經原作者允許不得轉載本文內容,否則將視為侵權;
3.轉載或者引用本文內容請注明來源及原作者;
4.對於不遵守此聲明或者其他違法使用本文內容者,本人依法保留追究權等。
