1.1.博弈的標准式和納什均衡
1.1A.博弈的標准式表述
首先我們來說明一下什么是完全信息靜態博弈,靜態博弈指開始時由參與者同時選擇行動,然后根據所有參與者的選擇,每個參與者得到各自的結果。完全信息博弈即每一個參與者的收益函數(根據所有參與者選擇行動的不同組合決定某一參與者收益的函數)在所有參與者之間是共同知識。
之所以稱為基礎理論,是因為本小結要解決兩個基本問題:如何描述一個博弈以及如何求博弈的解。
定義:
在一個n人博弈的標准式的表述中,參與者的戰略空間為S1,S2,……,Sn,收益函數為u1,u2,……,un,我們用G={S1,S2,……,Sn;u1,u2,……,un}表示此博弈。
1.2B.重復剔除嚴格劣策略
上面是博弈論的表述方法,下面是一個關於博弈論的解的方法(雖然不常用)。
定義:
在標准式的博弈G={S1,S2,……,S3;u1,u2,……,un}中,令Si′和Si″代表參與者i的兩個可行戰略(即Si′和Si″是Si中的元素)。如果對其他參與者每一個可能的戰略組合,i選擇Si′的收益都小於其選擇Si″的收益,則稱戰略Si′相對於Si″是嚴格劣戰略。
ui(S1,S2,…,Si′,…,Sn;u1,u2,…,ui′,…un}<ui{S1,S2,…,Si″,…,Sn;u1,u2,…,ui″,…un}
1/2 L2 R2 M2
L1 1,0 1,2 0,1
R1 0,3 0,1 2,0
參與人1有兩個可選策略,S1={L1,R1},參與人2有三個可選策略S2={L2,R2,M2}。
在這個博弈中,對參與人1來說L1和R1都不是嚴格占優的。因為如果參與人2選擇L2,參與人1L1優於R1;參與人2選擇R2,參與人1L1優於R1;參與人2選擇R2,參與人1R1優於L1;
但對參與人2來講,M2是嚴格劣於R2的,因此理性的參與人2是不可能選擇M2的,就可以把M2在戰略空間中剔除,如果參與人1知道參與人2是理性的,那么他就可以將這個博弈視為下圖:
1/2 L2 R2
L1 1,0 1,2
R1 0,3 0,1
此時又產生了一個新的情況,對於參與人1來講,R1又是嚴格劣與L1的,因此就可以將R1在參與人1的戰略空間中剔除,博弈又變成了如下情況:
1/2 L2 R2
L1 1,0 1,2
此時雙產生了一個新的情況,對於參與人2來講,L2又是嚴格劣與R2的,因此就可以將L2在參與人2的戰略空間中剔除,博弈雙變成了如下情況:
1/2 R2
L1 1,2
上述的過程就可以稱為“重復剔除嚴格劣策略”。這個方法雖然有用,但有着極大的缺陷,所以不常用。
1.3C納什均衡的導出和定義
納什均衡:每一個參與者所實施的戰略必須是針對其他參與者選擇戰略的最優反應。
定義:
在n個參與者的標准式博弈G={S1,S2,……,Sn;u1,u2,……,un},如果戰略組合{s1′,s2′,…,si′,…,sn′}滿足對每一個參與者i,si′是(至少不劣於)他針對其他n-1個參與者所選戰略{s1′,s2′,…,si-1′,si+1′,…,sn′}的最優反應戰略,則稱戰略組合{s1′,s2′,…,si′,…,sn′}是該博弈的納什均衡。
ui{s1′,s2′,…,si′,…,sn′}≥ui{s1′,s2′,…,si,…,sn′}
也就是說si′有:maxui{s1′,s2′,…,si′,…,sn′}
例如囚徒困境:
1/2 坦白 不坦白
坦白 -6,-6 0,-9
不坦白 -9,0 -1,-1
如果囚徒2選擇了坦白,此時囚徒1的最優反應應該是坦白;如果囚徒2選擇了不坦白,此時囚徒1最優反應應該是坦白。對於囚徒2同理。
對於每一個囚徒來說,對另一個囚徒的最優反應下面加一個橫線就成為了:
1/2 坦白 不坦白
坦白 -6,-6 0,-9
不坦白 -9,0 -1,-1
因此(坦白,坦白)就是這個博弈的唯一納什均衡。
當然一場博弈中可能會存在多個納什均衡,比如性別戰博弈,小楊同學和某位同學都希望在一起度過一個愉快的周末,但小楊同學更希望看籃球比賽,那位女同學更希望一起去看電影,因此就有以下博弈:
男/女 電影 籃球
電影 1,2 0,0
籃球 0,0 2,1
(電影,電影)和(籃球,籃球)都是納什均衡。
這就說明了博弈論可以為一個博弈提供唯一解,此解一定是一個納什均衡,但有時博弈論不能提供唯一解。
此時如果參與者之間能就如何進行給定的博弈達成一個協議,該協議也一定是一個納什均衡,但有時也出現不能達成協議的情況。
有時一個博弈有多個納什均衡,但並不能提供唯一解,參與者之間也不能達成協議(比如性別戰)。在這樣的博弈中,納什均衡用於預測博弈將如何進行的作用就大大減弱了。