多智能體博弈強化學習研究綜述筆記
1. 摘要要點
- 將博弈理論引入強化學習:
- 可以很好的解決智能體的相互關系
- 可以解釋收斂點對應策略的合理性
- 可以用均衡解來替代最優解以求得相對有效的策略。
- 強化學習算法解決不了不存在最優解的問題。
- 論文的內容:
- 近年來出現的強化學習算法
- 當前博弈強化學習算法的重難點及可能突破這些重難點的幾個突破方向
2. 多智能體深度強化學習關鍵科學問題
- 人工智能的發展階段
- 運算智能:快速計算和記憶存儲能力。
- 感知智能:覓覺、聽覺、觸覺等感知能力。
- 認知智能
- 監督學習:
監督學習解決問題的方法就是靠輸入大量的標簽數據學到抽象特征幵分類。 - 強化學習:
相比監督學習的標簽數據,強化學習只需要帶有回報的交互數據。 - 強化學習解決的問題:強化學習主要解決的是序貫決策問題,需要智能體不斷的與環境迚行交互和嘗試,當智能體通過動作
與環境進行交互時,環境會給智能體一個即時回報,智能體會根據回報評估采取的動作,如果是正向的報則加大采取該動作的
概率,如果是負向的回報則減小采取該動作的概率,同時智能體的動作可能會改變環境,不斷重復,最終找到最優策略使得累積
回報的期望最大。(與環境交互,環境返回回報,若回報為正向回報,加大采取該動作的概率,反之減小。不斷重復,最終達到
最優策略,使得積累回報的期望最大。)(序貫決策的定義:序貫決策是指按時間順序排列起來,以得到按順序的各種決策(策略)
,是用於隨機性或不確定性動態系統最優化的決策方法。) - 多智能體VS單智能體:
- 多智能體深度強化學習要考慮的動作和狀態空間都更大
- 每個智能體的回報不僅和環境有關,與其他智能體的動作也緊密聯系
- 由單智能體系統向多智能體系統過渡時主要存在的難點
- 維度爆炸。(由於動作空間、狀態空間和參數數量大幅度增加)
解決方式:
- 采用混合型訓練機制,即集中式訓練分布式執行(CTDE)
- 基於偽計數的探索算法,算法通過設計滿足一定性質的密度模型來評估頻次,計算在連續空間下具有泛化性的偽計數提高
探索效率,緩解維數爆炸問題。
- 環境非平穩性。(由於環境狀態轉移函數取決於聯合動作)
解決方式:
- 采用 AC框架,通過在訓練過程中獲得其它智能體的信息和行動,智能體不會經歷環境動態的意外變化
- 采用對手建模,通過模擬其他智能體的策略,可以穩定智能體的訓練過程
- 利用元學習更快適應非平穩性環境
- 信度分配。
解決方式:
- 平均分配、差分回報分配、優勢函數分配以及 Deepmind提出的基於情景記憶檢索 TVT 算法
- 維度爆炸。(由於動作空間、狀態空間和參數數量大幅度增加)
- 博弈類型
- 標准型博弈:如囚徒困境。
- 擴展式博弈:如圍棋
- 博弈論的中心思想:是為博弈建立一個策略交互模型,博弈論中均衡解是讓博弈玩家都滿意的策略組合,通過展示玩家最終會
采用哪些策略來描述博弈的結果。(均衡解:讓玩家都滿意,博弈結果:玩家最終會選擇的策略)
2. 多智能體博弈強化學習基本概念 - 馬爾可夫決策過程
- 馬爾可夫性質:當一個隨機過程在給定現在狀態及所有過去狀態情況下,其未來狀態的條件概率分布僅依賴於當前狀態;換句
話說,在給定現在狀態時,它與過去狀態(即該過程的歷史路徑)是條件獨立的,那么此隨機過程即具有馬爾可夫性質。 - MDP包含一組交互對象,即智能體和環境。
- 智能體(agent):MDP中進行機器學習的代理,可以感知外界環境的狀態進行決策、對環境做出動作並通過環境的反饋調整決策。
- 環境(environment):MDP模型中智能體外部所有事物的集合,其狀態會受智能體動作的影響而改變,且上述改變可以完全或部
分地被智能體感知。環境在每次決策后可能會反饋給智能體相應的獎勵。
- MDP的求解目標:找到期望回報值最大的最優策略,一般用最優狀態動作值函數形式化表彾期望回報:
。
- 多智能體馬爾可夫決策過程:當智能體的數量超過一個,同時環境的改變和每個智能體的回報取決於所有智能體的動作和當前狀態。
- 馬爾可夫性質:當一個隨機過程在給定現在狀態及所有過去狀態情況下,其未來狀態的條件概率分布僅依賴於當前狀態;換句
- 隨機博弈:隨機博弈可以看成 MDP 向多人博弈的推廣。
- 定義:由如下的六元組定義:
,其中 N 為
博弈玩家的個數,當玩家的個數為 1 時,即退化為 MDP,Ai為第 i 個玩家的動作,A-i為除第 i 個玩家外其他玩家的動作,記為:,
Ri為第 i 個玩家的回報函數,當每個玩家的回報函數相同時則稱此博弈為團隊博弈(Team Games)。 (當N=1時,隨機博弈變為馬爾可夫博弈。當R1=R2=....時,博弈為團隊博弈)
- 定義:由如下的六元組定義:
- 部分可觀察的隨機博弈
- 定義:部分可觀察的隨機博弈(POSG)是在隨機博弈的基礎上對玩家所能觀察到的信息迚行了一定的約束,具體表示為
,其中
OBi為第i個玩家的觀測集,聯合觀測集為,O為S×A—>[0,1]的觀測函數。
去中心化的部分可觀察馬爾可夫決策過程(Dec-POMDP)是特殊情況下的 POMDP,即所有智能體的回報函數都相同:
- 定義:部分可觀察的隨機博弈(POSG)是在隨機博弈的基礎上對玩家所能觀察到的信息迚行了一定的約束,具體表示為
- 納什均衡
- 定義:納什均衡就是一組策略
,該策略使得每個玩家在其他玩家策略不變的情冴下,
該玩家的收益不會減少,即,都有如下不等式:
- 定義:納什均衡就是一組策略
- 元博弈