多智能体博弈强化学习研究综述笔记
扩展式博弈
- 完全信息的扩展式博弈
纳什在博弈论中主要的贡献是证明了在有限玩家有限次标准型博弈下,一定存在混合策略的纳什均衡。但是这个纳什均衡是假设玩家在决策时,其他玩家的策略不会改变,但在扩展式博弈中先决策玩家无法知
道后决策玩家的策略,所以会导致不可置信的纳什均衡存在,因此扩展式博弈中均衡解应该在每个子博弈中都是纳什均衡解,这时的解称为子博弈精炼纳什均衡。求解子博弈
精炼纳什均衡最典型的算法是 alpha -beta 修剪算法,该算法通过逆向归纳从最底部的子博弈中求出纳什均衡,然后通过深度优先搜索算法不断将上层信息节点加入其中,
形成新的子博弈幵求出新的纳什均衡,最终在搜索完整个博弈树时求出的纳什均衡即为子博弈精炼纳什均衡。 (经典算法为α-β剪枝。在每个子博弈中都应该是纳什均衡解) - 不完全信息的扩展式博弈
- 解决不完全信息的扩展式博弈的三个主要难点
一是子博弈之间相互关联
二是存在状态不可分的信息集,这使得强化学习中基于状态的值估计方法不再适用
三是博弈的求解规模比较大,如桥牌和德州扑克的信息集数目分别为 - 反事实遗憾值最小化算法(CFR)
- CFR算法内容:CFR 算法结合了遗憾值最小化算法和平均策略,通过最小化单个信息集合上的遗憾值来达到最小化全局遗憾值的目标,最终使得博弈过程中的平均策略趋近于纳什均衡。
- CFR算法缺点:由于需要遍历整个博弈树,时间复杂度和收敛速度慢是算法的主要缺点。
- Lazy-CFR:针对原始 CFR 必须在每一轮中遍历整个游戏树的缺点,采用惰性更新策略,在只需要访问部分博弈节点条件下,取得和 CFR 同等效率。
- CFR改进:最佳响应剪枝算法(Best-Response Pruning,BRP)[53],Brown 证明了在使用 CFR 算法时加入 BRP 会减少对于收敛到纳什均衡没有帮助的动作,从而加速收敛和节约空间。
- 虚拟自我对弈算法(NFSP)
- 定义虚拟对弈(Fictitious Play)是根据对手的平均策略做出最佳反应来求解纳什均衡的一种算法,重复迭代后该算法在两人零和博弈、势博弈中的平均策略将会收敛到纳什均衡。
- 多智能体博弈强化学习算法的重难点
- CRF的主要难点:一是要求智能体具有完美回忆,这在很多实际博弈场景中很难满足;二是算法的收敛性很难保证;三是由于要遍历很多博弈节点,因此需要大量内存空间。
- NFSP的主要难点:一是 NFSP 系列算法依赖于off-policy 的深度 Q 值网络,因此在搜索觃模大、即时策略场景下很难收敛;二是在训练时智能体都是独立更新,没有利用对手的信息;
三是 NFSP 的最佳响应计算依赖于 Deep Q-learning,收敛时间长且计算量大。
多智能体博弈强化学习算法的重难点
CRF的主要难点:一是要求智能体具有完美回忆,这在很多实际博弈场景中很难满足;二是算法的收敛性很难保证;三是由于要遍历很多博弈节点,因此需要大量内存空间。
NFSP的主要难点:一是 NFSP 系列算法依赖于off-policy 的深度 Q 值网络,因此在搜索觃模大、即时策略场景下很难收敛;二是在训练时智能体都是独立更新,没有利用对手的信息;
三是 NFSP 的最佳响应计算依赖于 Deep Q-learning,收敛时间长且计算量大。 - 博弈强化学习算法的优化
- 收敛性:个人理解(对于有收敛性性证明的算法,由于收敛条件过于苛刻,这使得满足上述收敛条件的博弈几乎很少,所以该算法所能解决的问题有限)
- 求解法则
- 博弈强化学习算法的模型
- 博弈强化学习算法的通用性和扩展性
多智能体强化学习算法研究展望
- 解决不完全信息的扩展式博弈的三个主要难点
- 基于智能优化算法求解纳什均衡
- 当前群体智能算法:
- 蚁群优化算法(Ant Colony Optimization, ACO)
ACO 算法思想来源于蚂蚁寻食中的通信机制,蚂蚁在寻找食物过程中通过分泌信息素,通过信息素的浓度来选取最佳路径。
对于 ACO 算法的改进有 Max-Min Ant System(MMAS)和 Ant Colony System(ACS)算法,MMAS 算法的主要特征是在每一次迭代结束后,仅最优蚂蚁对其所经过的最优路径进行信息素
更新,其他蚂蚁不参与更新,ACS 加入伪随机比例规则和离线信息素更新规则,并且只对全局最优路径的信息素进行更新。 - 粒子群算法(Particle Swarm Optimization, PSO)为代表。
PSO 算法是科学家们在观察鸟群觅食时利用计算机模拟鸟群的聚集行为总结出一种群智能算法,可以在全局随机搜索,算法运行前会在自身建立的搜寻空间中设置一群随机的粒子,粒子通过迭代的
过程不断地更新自己的速度、位置逐渐朝着最优位置逼近,最终会找到最优解。
- 蚁群优化算法(Ant Colony Optimization, ACO)
- 基于元博弈的算法模型
- 核心思想:在原有博弈的基础上构建一种假想的博弈。而在该博弈中,某个智能体的动作将是其他所有智能体联合动作的反应函数(Reaction Function)。
- 元均衡和纯策略的纳什均衡的区别:不存在纯策略纳什均衡的博弈也存在元均衡,因为在任意一个一般式博弈中,至少存在一个元均衡,从该博弈的完全元博弈中推导出的元均衡一定存在。
- 元均衡的个人理解:元博弈的策略π,如果满足
,即π映射到基本博弈中为a。则联合动作a为一个元均衡。
- 基于复因子动力学扩展非对称博弈
- 建立合适的转换关系,将复杂的非对称博弈转换为多个相对简单的对称博弈,利用现有的对称博弈的理论方法进行求解。
- 复制动力学本质上是一个微分方程系统,它描述了一个纯策略种群(或复制因子)如何随着时间演化。在它们最基本的形式中,它们符合生物的选择原则,即适者生存。具体来说,选择复制器的动态机制表达如下:
这个等式本质上比较了一个策略的收益和整个总体的平均收益。如果这种策略的得分高于平均水平,它将能够复制后代,如果得分低于平均水平,它在种群中的存在将减少,甚至有可能走向灭绝。