在之前一個老師的安利下,還是開了這個博弈論的坑。書是:
這本書本身寫的非常棒,而且很易懂,強烈安利。
順便自己記錄下讀書的筆記和一些想法,同時也把書中比較難理解的地方用自己的理解說一下,希望能幫到大家。
第一章 1完全信息靜態博弈
在本章,我們來討論如下簡單形式的博弈(包含如下特點):
- 靜態博弈:所有游戲的參與者同時選擇行動,然后根據行動每個參與者得到各自的結果
- 完全信息博弈:即每一個參與者的收益函數在所有參與者之間是共同知識,即不存在信息的不對稱性,也就是說每個參與者對游戲規則以及游戲演化機理完全明白。
關於本章的結構:
在1.1節中我們先會介紹兩個問題:
- 如何描述一個博弈問題
- 如何求得博弈問題的解
在1問題中我們定義了博弈的標准式表述和嚴格劣戰略的概念,在2問題中我們根據前面的介紹引出了納什均衡的概念。
在1.2節中我們會運用前面的工具來分析古諾(Cournot,1838)的不完全競爭模型,使用納什均衡的方式對之進行求解,之后我們將重回理論知識,我們將會定義混合戰略,它可以理解為一個參與者並不能確定其他參與者會如何行動時應該選的戰略,之后會引出納什定理。
1.1節博弈的標准式和納什均衡
1.1.A 博弈的標准式表述
首先舉一個大家都比較熟悉的、很經典的例子:囚徒困境
警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人入罪。於是警方分開囚禁嫌疑犯,分別和二人見面,並向雙方提供以下相同的選擇: 若一人認罪並作證檢控對方(相關術語稱“背叛”對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。若二人都保持沉默(相關術語稱互相“合作”),則二人同樣判監1年。 若二人都互相檢舉(相關術語稱互相“背叛”),則二人同樣判監8年。
對於這個博弈我們可以來使用如下矩陣來進行描述
對於這個矩陣,其橫縱軸分別為囚徒1、2所對應的選擇。方框里的值第一項代表在此選擇下,囚徒1 的收益情況,第二項代表囚徒2的收益情況。
現在我們回到一般情況,對於一個博弈的標准式,我們對之的表述包括以下幾方面:
- 博弈的參與者(例子中的囚徒1和囚徒2)
- 每一個參與者可供選擇的戰略集(例子中的沉默和招認)
- 針對所有參與者可選擇的的戰略組合得到每一個參與者的收益(例子中方框中的值)
那么我們就可以對一個博弈給出如下定義:
定義 在一個n個人的博弈的標准式表述中,參與者的戰略空間為S1, S2,……, Sn(Si表示第i個人的可選擇戰略集),si 收益函數為u1,u2……,un,ui(si,……sn),即參與者選擇策略(si,……sn)時,第i個人的收益,我們用
來表示此博弈。
當然此博弈的標准式不僅僅可以表達靜態完全信息博弈(盡管我們的例子是如此),在后面的動態問題中也可以用到,不過分析動態問題時我們可能更常用它的一種變式——
博弈的擴展式,不過這都是后話了。
1.1. B重復剔除嚴格劣戰略
在這一節我們來着手對一個博弈進行分析,還是那個囚徒困境的例子:
對於囚徒1,他選擇不同戰略的時候,收益如下:
選擇沉默:{-1,-9}(當囚徒2選擇沉默的時收益為-1,選擇招認的時收益為-9)
選擇招認:{0,-6}(當囚徒2選擇沉默的時收益為-1,選擇招認的時收益為-9)
對於囚徒2,其不同戰略得到的收益與囚徒1 相同。
而至此,我們可以看到,選擇沉默時{-1,-9},招認時{0,-6},對於任何一個囚徒,其選擇沉默時不管對方選擇任何戰略,自己的收益都沒有選擇招認時的收益高。對於這個博弈中,對於囚徒1、2選擇沉默都是嚴格劣戰略。
我們將這個結論一般化:
對其他參與者在其戰略空間 中每一組可能的戰略 都成立。
使用重復剔除嚴格劣戰略的方法解博弈問題
對於如下博弈:
參與人1 |
參與人2 |
|||
|
左 |
中 |
右 |
|
上 |
1,0 |
1,2 |
0,1 |
|
下 |
0,3 |
0,1 |
2,0 |
我們先尋找參與人1和參與人2的嚴格劣戰略:
首先,對於參與人1來說,明顯,上下都不是嚴格占優的,(因為無法確定參與人2到底會選擇哪個),但是對於參與人2來說,右是嚴格劣於中的(2>1,1>0)所以判斷是可以將右在參與人2的策略中剔除。
參與人1 |
參與人2 |
|||
|
左 |
中 |
|
|
上 |
1,0 |
1,2 |
||
下 |
0,3 |
0,1 |
之后再對參與人1進行剔除嚴格劣戰略:
在這種情況下,對於參與人1,下是嚴格劣於上的,刪除下策略
參與人1 |
參與人2 |
|||
|
左 |
中 |
|
|
上 |
1,0 |
1,2 |
同理再進行剔除一次,可以將參與人2 的左戰略刪除,我們得到本次博弈的結果(上,中)。
對於重復剔除嚴格劣戰略,有着以下幾點缺點:
- 這個戰略建立的一個大的基礎就是參與者雙方必須完全理性,並且雙方知道對方完全理性,並且雙方遵守“完全理性”的規則。
- 對於一些博弈,是無法找到並剔除完全劣戰略的(不存在完全劣戰略)
1.1. c納什均衡的引入
在一個博弈中,假設參與者全是理性人,倘若這個博弈有唯一解,即這個博弈處於以下的狀態:每個人在這種狀態下,自己的策略都優於(至少是不劣於)其他可選擇的策略,即達到一個共贏的狀態,把這個狀態就叫做納什均衡。
和納什均衡相關的一個東西叫做協議理念:倘若多個參與者在一個博弈中要達成某項協議,那么這個協議對於每個參與者來說都應該是最優的(至少不劣於其他策略),這個協議才沒有人去違反。達成這個協議的狀態可以簡單的理解為納什均衡。
下面給出一個納什均衡的例子:
同樣,囚徒困境和本文中舉的第二個例子也能用納什均衡來求解,這里就不一一列出。在這個,納什均衡為(下,下)因為對這個戰略組合來說,當1選擇下的時候,2 的最優選擇也是下,當2 選擇下的時候,1的最優選擇也是下,這就達到了納什均衡。舉個反例,當1選擇上的時候,2的最優選擇為上,而當2選擇為上的時候,1的最優選擇變成了中,這個時候就沒有處於平衡狀態,雙方策略會發生改變直至達到納什均衡。
對於某些博弈會存在多個納什均衡,比較簡單的例子就是把上面那個例子中,(上,下)
對應的值改為6,6
這個時候就會產生多個納什均衡,當然還會有不存在納什均衡的情況,這些情況會在后續章節討論。