一、背景介紹
傳統的強化學習問題研究的是個體與環境交互,通過環境反饋的reward來指導個體學習策略,經典的算法有Q-Learning、DQN、DDPG等。
但現實場景中,環境中個體並不是孤立,例如有多個機器人合力推舉一個重物,也或者有對抗的個體進行阻礙。總之多個個體都需要學會合作亦或者競爭。
多智能體系統(Multi-Agent System)主要研究方向之一就是多個個體的復雜系統中協同問題,因此多智能體強化學習開始逐漸得到關注。
遺憾地是,經典的強化學習算法並不能直接適用於多智能體學習場景。其中一個很重要的原因是,每個智能體學習過程中,其策略是不穩定的。
在某一個智能體的視角來看,它所面臨不僅是環境狀態,還有其他智能體的當前動作,這極大地增加了環境不穩定性,讓策略學習難以收斂。
因此,本文章介紹一下MADDPG算法,該算法來自OpenAI,發表在2017年NIPS會議的論文Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments,
通過一系列改進來解決該類問題,其中不同Agent可以有不同目標函數,只需要利用局部信息就可以做出最優決策,用於統一解決各類合作、競爭等場景。
MADDPG的論文地址見:https://arxiv.org/abs/1706.02275
算法的模擬環境代碼見:https://github.com/openai/multiagent-particle-envs
二、算法要點
1.集中訓練,分布執行:多Agent訓練時的信息與執行時的信息有所不同,其中執行時只能獲取個體視角的觀察值,而訓練時為了提升訓練效果會用到更多全局信息,彌補了Q-learning的不足之處
2.每個Agent的訓練基於Actor-Critic架構的深度學習網絡結構,其中Actor網絡是Agent的決策網絡,輸入為環境狀態信息x和各Agent的動作a1...an。基於全局信息,Critic網絡負責評估Actor網絡的決策
3.同樣采用了經驗回放,每條經驗由