多智能體博弈強化學習研究綜述筆記3


多智能體博弈強化學習研究綜述筆記

擴展式博弈

  • 完全信息的擴展式博弈
    納什在博弈論中主要的貢獻是證明了在有限玩家有限次標准型博弈下,一定存在混合策略的納什均衡。但是這個納什均衡是假設玩家在決策時,其他玩家的策略不會改變,但在擴展式博弈中先決策玩家無法知
    道后決策玩家的策略,所以會導致不可置信的納什均衡存在,因此擴展式博弈中均衡解應該在每個子博弈中都是納什均衡解,這時的解稱為子博弈精煉納什均衡。求解子博弈
    精煉納什均衡最典型的算法是 alpha -beta 修剪算法,該算法通過逆向歸納從最底部的子博弈中求出納什均衡,然后通過深度優先搜索算法不斷將上層信息節點加入其中,
    形成新的子博弈幵求出新的納什均衡,最終在搜索完整個博弈樹時求出的納什均衡即為子博弈精煉納什均衡。 (經典算法為α-β剪枝。在每個子博弈中都應該是納什均衡解)
  • 不完全信息的擴展式博弈
    1. 解決不完全信息的擴展式博弈的三個主要難點
      一是子博弈之間相互關聯
      二是存在狀態不可分的信息集,這使得強化學習中基於狀態的值估計方法不再適用
      三是博弈的求解規模比較大,如橋牌和德州撲克的信息集數目分別為
    2. 反事實遺憾值最小化算法(CFR)
    • CFR算法內容:CFR 算法結合了遺憾值最小化算法和平均策略,通過最小化單個信息集合上的遺憾值來達到最小化全局遺憾值的目標,最終使得博弈過程中的平均策略趨近於納什均衡。
    • CFR算法缺點:由於需要遍歷整個博弈樹,時間復雜度和收斂速度慢是算法的主要缺點。
    • Lazy-CFR:針對原始 CFR 必須在每一輪中遍歷整個游戲樹的缺點,采用惰性更新策略,在只需要訪問部分博弈節點條件下,取得和 CFR 同等效率。
    • CFR改進:最佳響應剪枝算法(Best-Response Pruning,BRP)[53],Brown 證明了在使用 CFR 算法時加入 BRP 會減少對於收斂到納什均衡沒有幫助的動作,從而加速收斂和節約空間。
    1. 虛擬自我對弈算法(NFSP)
    • 定義虛擬對弈(Fictitious Play)是根據對手的平均策略做出最佳反應來求解納什均衡的一種算法,重復迭代后該算法在兩人零和博弈、勢博弈中的平均策略將會收斂到納什均衡。
    • 多智能體博弈強化學習算法的重難點
    1. CRF的主要難點:一是要求智能體具有完美回憶,這在很多實際博弈場景中很難滿足;二是算法的收斂性很難保證;三是由於要遍歷很多博弈節點,因此需要大量內存空間。
    2. NFSP的主要難點:一是 NFSP 系列算法依賴於off-policy 的深度 Q 值網絡,因此在搜索覎模大、即時策略場景下很難收斂;二是在訓練時智能體都是獨立更新,沒有利用對手的信息;
      三是 NFSP 的最佳響應計算依賴於 Deep Q-learning,收斂時間長且計算量大。
      多智能體博弈強化學習算法的重難點
      CRF的主要難點:一是要求智能體具有完美回憶,這在很多實際博弈場景中很難滿足;二是算法的收斂性很難保證;三是由於要遍歷很多博弈節點,因此需要大量內存空間。
      NFSP的主要難點:一是 NFSP 系列算法依賴於off-policy 的深度 Q 值網絡,因此在搜索覎模大、即時策略場景下很難收斂;二是在訓練時智能體都是獨立更新,沒有利用對手的信息;
      三是 NFSP 的最佳響應計算依賴於 Deep Q-learning,收斂時間長且計算量大。
    3. 博弈強化學習算法的優化
    • 收斂性:個人理解(對於有收斂性性證明的算法,由於收斂條件過於苛刻,這使得滿足上述收斂條件的博弈幾乎很少,所以該算法所能解決的問題有限)
    • 求解法則
    1. 博弈強化學習算法的模型
    2. 博弈強化學習算法的通用性和擴展性
      多智能體強化學習算法研究展望
  1. 基於智能優化算法求解納什均衡
  • 當前群體智能算法:
    1. 蟻群優化算法(Ant Colony Optimization, ACO)
      ACO 算法思想來源於螞蟻尋食中的通信機制,螞蟻在尋找食物過程中通過分泌信息素,通過信息素的濃度來選取最佳路徑。
      對於 ACO 算法的改進有 Max-Min Ant System(MMAS)和 Ant Colony System(ACS)算法,MMAS 算法的主要特征是在每一次迭代結束后,僅最優螞蟻對其所經過的最優路徑進行信息素
      更新,其他螞蟻不參與更新,ACS 加入偽隨機比例規則和離線信息素更新規則,並且只對全局最優路徑的信息素進行更新。
    2. 粒子群算法(Particle Swarm Optimization, PSO)為代表。
      PSO 算法是科學家們在觀察鳥群覓食時利用計算機模擬鳥群的聚集行為總結出一種群智能算法,可以在全局隨機搜索,算法運行前會在自身建立的搜尋空間中設置一群隨機的粒子,粒子通過迭代的
      過程不斷地更新自己的速度、位置逐漸朝着最優位置逼近,最終會找到最優解。
  1. 基於元博弈的算法模型
  • 核心思想:在原有博弈的基礎上構建一種假想的博弈。而在該博弈中,某個智能體的動作將是其他所有智能體聯合動作的反應函數(Reaction Function)。
  • 元均衡和純策略的納什均衡的區別:不存在純策略納什均衡的博弈也存在元均衡,因為在任意一個一般式博弈中,至少存在一個元均衡,從該博弈的完全元博弈中推導出的元均衡一定存在。
  • 元均衡的個人理解:元博弈的策略π,如果滿足,即π映射到基本博弈中為a。則聯合動作a為一個元均衡。
  1. 基於復因子動力學擴展非對稱博弈
  • 建立合適的轉換關系,將復雜的非對稱博弈轉換為多個相對簡單的對稱博弈,利用現有的對稱博弈的理論方法進行求解。
  • 復制動力學本質上是一個微分方程系統,它描述了一個純策略種群(或復制因子)如何隨着時間演化。在它們最基本的形式中,它們符合生物的選擇原則,即適者生存。具體來說,選擇復制器的動態機制表達如下:

    這個等式本質上比較了一個策略的收益和整個總體的平均收益。如果這種策略的得分高於平均水平,它將能夠復制后代,如果得分低於平均水平,它在種群中的存在將減少,甚至有可能走向滅絕。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM