1.1.博弈的标准式和纳什均衡
1.1A.博弈的标准式表述
首先我们来说明一下什么是完全信息静态博弈,静态博弈指开始时由参与者同时选择行动,然后根据所有参与者的选择,每个参与者得到各自的结果。完全信息博弈即每一个参与者的收益函数(根据所有参与者选择行动的不同组合决定某一参与者收益的函数)在所有参与者之间是共同知识。
之所以称为基础理论,是因为本小结要解决两个基本问题:如何描述一个博弈以及如何求博弈的解。
定义:
在一个n人博弈的标准式的表述中,参与者的战略空间为S1,S2,……,Sn,收益函数为u1,u2,……,un,我们用G={S1,S2,……,Sn;u1,u2,……,un}表示此博弈。
1.2B.重复剔除严格劣策略
上面是博弈论的表述方法,下面是一个关于博弈论的解的方法(虽然不常用)。
定义:
在标准式的博弈G={S1,S2,……,S3;u1,u2,……,un}中,令Si′和Si″代表参与者i的两个可行战略(即Si′和Si″是Si中的元素)。如果对其他参与者每一个可能的战略组合,i选择Si′的收益都小于其选择Si″的收益,则称战略Si′相对于Si″是严格劣战略。
ui(S1,S2,…,Si′,…,Sn;u1,u2,…,ui′,…un}<ui{S1,S2,…,Si″,…,Sn;u1,u2,…,ui″,…un}
1/2 L2 R2 M2
L1 1,0 1,2 0,1
R1 0,3 0,1 2,0
参与人1有两个可选策略,S1={L1,R1},参与人2有三个可选策略S2={L2,R2,M2}。
在这个博弈中,对参与人1来说L1和R1都不是严格占优的。因为如果参与人2选择L2,参与人1L1优于R1;参与人2选择R2,参与人1L1优于R1;参与人2选择R2,参与人1R1优于L1;
但对参与人2来讲,M2是严格劣于R2的,因此理性的参与人2是不可能选择M2的,就可以把M2在战略空间中剔除,如果参与人1知道参与人2是理性的,那么他就可以将这个博弈视为下图:
1/2 L2 R2
L1 1,0 1,2
R1 0,3 0,1
此时又产生了一个新的情况,对于参与人1来讲,R1又是严格劣与L1的,因此就可以将R1在参与人1的战略空间中剔除,博弈又变成了如下情况:
1/2 L2 R2
L1 1,0 1,2
此时双产生了一个新的情况,对于参与人2来讲,L2又是严格劣与R2的,因此就可以将L2在参与人2的战略空间中剔除,博弈双变成了如下情况:
1/2 R2
L1 1,2
上述的过程就可以称为“重复剔除严格劣策略”。这个方法虽然有用,但有着极大的缺陷,所以不常用。
1.3C纳什均衡的导出和定义
纳什均衡:每一个参与者所实施的战略必须是针对其他参与者选择战略的最优反应。
定义:
在n个参与者的标准式博弈G={S1,S2,……,Sn;u1,u2,……,un},如果战略组合{s1′,s2′,…,si′,…,sn′}满足对每一个参与者i,si′是(至少不劣于)他针对其他n-1个参与者所选战略{s1′,s2′,…,si-1′,si+1′,…,sn′}的最优反应战略,则称战略组合{s1′,s2′,…,si′,…,sn′}是该博弈的纳什均衡。
ui{s1′,s2′,…,si′,…,sn′}≥ui{s1′,s2′,…,si,…,sn′}
也就是说si′有:maxui{s1′,s2′,…,si′,…,sn′}
例如囚徒困境:
1/2 坦白 不坦白
坦白 -6,-6 0,-9
不坦白 -9,0 -1,-1
如果囚徒2选择了坦白,此时囚徒1的最优反应应该是坦白;如果囚徒2选择了不坦白,此时囚徒1最优反应应该是坦白。对于囚徒2同理。
对于每一个囚徒来说,对另一个囚徒的最优反应下面加一个横线就成为了:
1/2 坦白 不坦白
坦白 -6,-6 0,-9
不坦白 -9,0 -1,-1
因此(坦白,坦白)就是这个博弈的唯一纳什均衡。
当然一场博弈中可能会存在多个纳什均衡,比如性别战博弈,小杨同学和某位同学都希望在一起度过一个愉快的周末,但小杨同学更希望看篮球比赛,那位女同学更希望一起去看电影,因此就有以下博弈:
男/女 电影 篮球
电影 1,2 0,0
篮球 0,0 2,1
(电影,电影)和(篮球,篮球)都是纳什均衡。
这就说明了博弈论可以为一个博弈提供唯一解,此解一定是一个纳什均衡,但有时博弈论不能提供唯一解。
此时如果参与者之间能就如何进行给定的博弈达成一个协议,该协议也一定是一个纳什均衡,但有时也出现不能达成协议的情况。
有时一个博弈有多个纳什均衡,但并不能提供唯一解,参与者之间也不能达成协议(比如性别战)。在这样的博弈中,纳什均衡用于预测博弈将如何进行的作用就大大减弱了。