鄭重聲明:原文參見標題,如有侵權,請聯系作者,將會撤銷發布!
ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 30 (NIPS 2017), (2017): 6379-6390
Abstract
我們探索了多智能體領域的深度強化學習方法。我們首先分析傳統算法在多智能體情況下的難度:Q學習受到環境固有的非平穩性的挑戰,而策略梯度受到隨着智能體數量增加而增加的方差的影響。然后,我們提出了一種對 actor-critic方法的改進,該方法考慮了其他智能體的動作策略,並且能夠成功地學習需要復雜的多智能體協調的策略。此外,我們引入了一種訓練方案,該方案利用針對每個智能體的一組策略,從而產生更強大的多智能體策略。與合作和競爭場景中的現有方法相比,我們展示了我們的方法的優勢,其中智能體群體能夠發現各種物理和信息協調策略。
1 Introduction
2 Related Work
3 Background
4 Methods
4.1 Multi-Agent Actor Critic
我們在上一節中已經討論過,朴素策略梯度方法在簡單的多智能體設置中表現不佳,這在我們第5節的實驗中得到了支持。我們在本節中的目標是推導出一種在此類設置中運行良好的算法。然而,我們希望在以下約束下運行:(1) 學到的策略在執行時只能使用局部信息(即他們自己的觀察),(2) 我們不假設環境動態的可微模型,不像[25],以及(3) 我們不假設智能體之間的通信方法有任何特定的結構(也就是說,我們不假設可微的通信渠道)。實現上述需求將提供一種通用的多智能體學習算法,該算法不僅可以應用於具有明確通信渠道的合作游戲,還可以應用於競爭游戲和僅涉及智能體之間物理交互的游戲。
與[8]類似,我們通過采用分散執行的集中訓練框架來實現我們的目標。因此,只要在測試時不使用這些信息,我們就允許策略使用額外的信息來簡化訓練。用Q學習做到這一點是不自然的,因為Q函數在訓練和測試時通常不能包含不同的信息。因此,我們提出了actor-critic策略梯度方法的簡單擴展,其中用關於其他智能體的策略的額外信息來增強critic。
更具體地說,考慮一個具有N個智能體的游戲,其策略參數化為,令
為所有智能體策略的集合。然后我們可以將智能體 i 的期望回報的梯度,
寫為:
請注意,我們需要其他智能體的策略來應用等式6中的更新。了解其他智能體的觀察和策略並不是特別嚴格的假設;如果我們的目標是訓練智能體在模擬中表現出復雜的交流行為,則這些信息通常可供所有智能體使用。然而,如果有必要,我們可以通過從觀察中學習其他智能體的策略來放松這個假設——我們在4.2節中描述了一種這樣做的方法。
4.2 Inferring Policies of Other Agents
4.3 Agents with Policy Ensembles
如前所述,多智能體強化學習中一個反復出現的問題是由於智能體不斷變化的策略導致環境的非平穩性。在競爭環境中尤其如此,智能體可以通過過擬合競爭對手的行為來制定強有力的策略。這種策略是不可取的,因為它們很脆弱,並且當競爭對手改變策略時可能會失敗。
為了獲得對競爭智能體的策略變化更穩健的多智能體策略,我們提出訓練 K 個不同子策略的集合。在每一個回合中,我們為每個智能體隨機選擇一個特定的子策略來執行。假設策略μi是K個不同子策略的集合,子策略 k 表示為(表示為
)。對於智能體 i,我們然后最大化集成目標:
由於不同的子策略將在不同的回合中執行,我們為智能體 i 的每個子策略維護一個回放緩存
。因此,我們可以推導出集合目標關於
的梯度如下:
5 Experiments1
5.1 Environments
為了進行我們的實驗,我們采用了[25]3中提出的接地通信環境,它由N個智能體和L個地標組成,它們居住在具有連續空間和離散時間的二維世界中。智能體可能會在環境中采取物理動作,以及向其他智能體廣播的通信動作。與[25]不同,我們不假設所有智能體都具有相同的動作和觀察空間,或根據相同的策略π行動。我們還考慮了合作(所有智能體必須最大化共享回報)和競爭(智能體有相互沖突的目標)的游戲。有些環境需要智能體之間進行明確的通信才能獲得最優獎勵,而在其他環境中智能體只能執行物理動作。我們在下面提供了每個環境的詳細信息。
Cooperative communication. (協作溝通) 該任務由兩個合作智能體組成,一個說話者和一個聆聽者,它們被放置在具有三個不同顏色的地標的環境中。在每一個回合,聆聽者必須導航到特定顏色的地標,並根據它與正確地標的距離獲得獎勵。然而,雖然聆聽者可以觀察地標的相對位置和顏色,但它不知道它必須導航到哪個地標。相反,說話者的觀察由正確的地標顏色組成,它可以在聆聽者觀察到的每個時間步驟產生通信輸出。因此,說話者必須學會根據聆聽者的動作輸出地標顏色。盡管這個問題相對簡單,但正如我們在5.2節中展示的那樣,它對傳統的RL算法提出了重大挑戰。
- 兩個智能體,一個是 speaker,一個是 listener。(灰色)
- 三個地標 landmarks。(紅綠藍)
- 游戲任務:
- listener 導航到特定顏色的 landmark,如果成功抵達,listener 將得到獎勵
- listener 知道所有 landmark 的顏色,並且知道到每個 landmark 的距離,但是 listener 並不知道正確的 landmark 顏色是哪個
- speaker 知道正確的 landmark 顏色,speaker 需要學會基於 listener 的移動來推測每個 landmark 顏色
Cooperative navigation. (協作導航) 在這種環境中,智能體必須通過物理動作進行協作才能到達一組L個地標。智能體觀察其他智能體和地標的相對位置,並根據任何智能體與每個地標的接近程度共同獲得獎勵。換句話說,智能體必須"覆蓋"所有地標。此外,智能體占用大量物理空間並在相互碰撞時受到懲罰。我們的智能體學會推斷它們必須覆蓋的地標,並在避開其他智能體的同時移動到那里。
- L 個 landmarks,N 個智能體
- 游戲任務:每個智能體占領一個 landmark (就跟占板凳游戲一樣)
- 觀察:到其它 agents 和 landmarks 的距離
- 獎勵:任意智能體到每個 landmark 的距離
- 如果智能體之間發生碰撞,則會受到懲罰
- 每個智能體需要學會推斷他們應該 cover 的 landmark
Keep-away. (遠離) 這個場景包括L個地標,包括一個目標地標,N個知道目標地標並根據它們與目標的距離獲得獎勵的合作智能體,以及M個必須阻止合作智能體到達目標的對抗性智能體。對手通過物理地將智能體推離地標,暫時占據它來實現這一點。雖然對手也根據與目標地標的距離進行獎勵,但它們不知道正確的目標;這必須從智能體的移動中推斷出來。
- L 個 landmarks,其中一個是 target landmark
- N 個協作智能體
- 協作智能體知道 target landmark 位置
- 獎勵是到 target landmark 的距離
- M 個對手智能體
- 防止協作智能體抵達 target landmark
- 獎勵是到 target landmark 的距離
- 對手智能體不知道正確的 target landmark 位置
- 對手智能體需要根據協作智能體的移動來推斷正確的 target landmark 位置
Physical deception. (物理欺騙) 在此,N個智能體合作從總共N個地標中到達單個目標地標。它們根據任何智能體到目標的最小距離獲得獎勵(因此只有一個智能體需要到達目標地標)。然而,一個孤獨的對手也希望到達目標地標;問題是對手不知道哪個地標是正確的。因此,根據對手與目標的距離而受到懲罰的合作智能體,學會分散並覆蓋所有地標以欺騙對手。
- N 個 landmarks,N 個協作智能體,1 個對手智能體
- 協作智能體:
- 只有一個 target landmark,協作智能體目標是抵達 target landmark
- 獎勵:離 target landmark 最近的智能體到 target landmark 的距離
- 懲罰:對手到 target landmark 的距離
- 協作智能體需要學會分開行動和 cover 所有的 landmark 來迷惑和欺騙對手
- 對手智能體:
- 目標也是抵達 target landmark
- 但是對手智能體不知道 target landmark 是哪個,需要根據協作智能體行為來推斷
Predator-prey. (捕食者-被捕食者) 在經典捕食者-獵物游戲的這種變體中,N個較慢的合作智能體必須在隨機生成的環境中追逐速度較快的對手,其中L個大地標阻礙了前進的道路。每次合作智能體與對手發生碰撞時,智能體都會得到獎勵,而對手則受到懲罰。智能體觀察智能體的相對位置和速度,以及地標的位置。
- N 個速度慢的協作智能體,1 個速度快的對手智能體,L 個 landmarks(障礙物)
- 協作智能體要追逐對手智能體
- 如果協作智能體和對手智能體發生碰撞,協作智能體得到獎勵,對手得到懲罰
- 智能體的觀察:
- 智能體的相對位置和速度
- landmarks 的位置
Covert communication. 這是一個對抗性的通信環境,其中說話者智能體('Alice')必須將消息傳達給聆聽者智能體('Bob'),后者必須在另一端重建消息。然而,一個對抗智能體('Eve')也在觀察通道,並想要重建消息——Alice和Bob根據Eve的重建受到懲罰,因此Alien必須使用隨機生成的密鑰(只有Alien和Bob知道)對她的消息進行編碼。這類似於[2]中考慮的密碼學環境。
1 我們的實驗結果的視頻可以在這里看到:https://sites.google.com/site/multiagentac/
3 代碼可以在這里找到:https://github.com/openai/multiagent-particle-envs
5.2 Comparison to Decentralized Reinforcement Learning Methods
5.3 Effect of Learning Polices of Other Agents
5.4 Effect of Training with Policy Ensembles
6 Conclusions and Future Work
Appendix
Multi-Agent Deep Deterministic Policy Gradient Algorithm
Experimental Results
Variance of Policy Gradient Algorithms in a Simple Multi-Agent Setting