博弈論基礎讀書筆記三 完全信息動態博弈和逆向歸納法


第二章完全信息動態博弈

先來說明兩個概念:

1、靜態博弈是指在博弈中,參與人同時選擇或雖非同時選擇但后行動者並不知道先行動者采取了什么具體行動。

2、動態博弈是指在博弈中,參與人的行動有先后順序,且后行動者能夠觀察到先行動者所選擇的行動。

這一章,我們來討論關於完全信息(即參與者的收益函數是共同知識的博弈)動態博弈的問題。

在這里我們還將博弈分為兩種:

完美信息博弈:即要選擇行動的參與者完全知道這一步之前所有的博弈過程。

完全但不完美信息博弈:即要選擇行動的參與者不知道這一步之前的博弈過程。

進行這章之前先簡要的解釋一些東西:

所有的動態博弈的中心問題都是可信任性。下面給一個經典的手雷博弈的例子:

第一,  參與者1可以選擇支付1000美元給參與者2或者是一分不給。

第二,  參與者2觀察參與者1的選擇,然后決定是否引爆一顆手雷將兩個人同

炸死。

如果參與者2威脅參與者1如果他不付1000美元就引爆手雷,如果參與者1相信這個威脅,則最優選擇是支付1000美元。但參與者1卻不會對這一威脅信以為真,因為它不可置信(參與者2不會蠢到因為1000美元而同歸於盡,至於參與者1考慮參與者2是不是瘋子的情況在第三章討論)。

這個例子就是典型的完全且完美信息博弈。

在2.1節我們將在后面使用逆向歸納解,來求解這個問題。

在2.2節我們會豐富前一節的博弈模型使之成為完全但不完美博弈,我們會定義這種博弈的子博弈精煉解,它是逆向歸納法的延申。

在2.3節研究重復博弈,即多次重復一個給定博弈。這里分析問題的中心使(可信的)威脅和對以后做出的承諾對當前行為的影響。

在2.4節中我們介紹分析一般的完全信息動態博弈所需要的工具。不再區別信息是否是完美的。

本節和本章的重點都在語言,一個完全信息動態博弈可能會有多個納什均衡,但其中一些均衡或許包含了不可置信的威脅和承諾,子博弈精煉納什均衡則是通過了可信檢驗的均衡。

看到這里你可能還是一頭霧水,但是無所謂,讓我們一節一節的來講,看到最后你在回頭看前面的總結可能會更有利於你對本章的理解。

 

1.1. 逆向歸納法

完美且完全信息博弈有以下特點:

  1. 行動是順序發生的
  2. 下一步行動選擇之前,所有以前的行動都可以被觀察到
  3. 每一可能的行動組合的收益函數都是共同知識

我們通過逆向歸納法對這類問題進行求解:

當博弈的第二階段參與者2行動時,由於參考參與者1的行動a1,他面臨的決策問題可以以以下式子表示:

                                     

假定對A1中,每一個參與者2的優化問題只有唯一解,用R2(a1)表示,這是參與者2的最優反應。在這個問題中,參與者1、2都是理性的,並且這都是兩者共同知道的知識,所以對於參與者1,他可以預測出R2(a1),那么對於參與者1,他在這個博弈中的決策問題為:

                                            

假定對於參與者1,這個問題依舊有唯一解,表示為a1*,那么稱(a1*,R2(a1*))為這一博弈的逆向歸納解。在這個博弈中,我們排除了所有的不可置信威脅(比如手雷博弈中參與者2 的同歸於盡),因為我們考慮的時候都是在考慮雙方的最優解,並且雙方都為理性人。當然也有多個解的情況,這就類似於納什均衡中的多解

到這里可能看起來很容易(其實真的很容易),那么我們需要一個例子讓我們對這個理論有更深刻的理解:

斯塔克爾貝里雙頭壟斷模型

和上一章的古諾雙頭壟斷模型類似,不過這里我們對參與者進行了修改:參與者1為支配企業,參與者2為從屬企業。也就是說,在這個博弈中,市場規則和收益函數和古諾模型相同,區別是參與者1可以先選擇產量,參與者2得到了參與者1的產量信息之后再選擇自己的產量(古諾模型中兩者產量是同時決定的,並且互相不知道對方要決定的產量)。

博弈順序如下

  1. 企業1選擇產量q1>=0
  2. 企業2觀測到然后選擇產量
  3. 收益由以下函數給出

                                              ui(qi,qj)=qi(a-qi-qj-c)

為了得到這個逆向解,我們首先計算出企業2對企業1的最優反應函數R2(q1):

                                 max u2(q1,q2)=q2(a-q1-q2-c) subject to q2>=0

 

由上式得:
                                          R2(q1)=(a-q1-c)/2

那么對於企業1當他計算出后,那么對於企業1來說,問題就變成了:

       max u1(q1,R2(q1))  subject to q1>=0   =max q1(a-q1-c)/2   subject to q1>=0

又上式可得,

                                           q1*=(a-c)/2

                                            q2*=(a-c)/4

這就是斯塔克爾貝里雙頭壟斷模型的逆向歸納解

之后我們來討論從這個解中看到的東西,這也是為什么舉這個例子的重要原因。

從結果我們可以計算出來,斯塔克爾貝里博弈中市場的出清價格要低於古諾博弈中的價格,但是在這個模型中,企業1完全可以選擇古諾模型中的產量,從而和企業2達到古諾博弈中的平衡,而他沒有這么做,證明他的利潤水平提高了。同樣,我們對比前后企業2 的收益情況,可以看出斯塔克爾貝里博弈中,企業2的利潤有了明顯降低。這就揭示了一個道理,在博弈論中,了解更多的信息(准確來說是作為一個參與者被別人了解更多信息),如參與者1知道參與者2能看到自己的產量,對於參與者2反而是不利的。

再來舉個例子來理解這句話:

依舊是斯塔克爾貝里模型,不過這次參與者2無法得知參與者1第一階段向市場投放的產量。那么會出現下面的情況:

如果企業1相信企業2選擇它的斯塔克爾貝里產量,那么企業1會改變自己的策略,使其傾向於對 的反應,但是企業2也會推斷到企業1這么想,從而改變自己的策略,同樣,企業1也會預測到企業2預測到了企業1預測到了企業2會選擇斯塔克爾貝里產量從而改變自己的策略……

這樣不斷循環就會回到古諾博弈的平衡,所以對於企業2不知道企業1產量這一信息所得的利潤要大於得知時的利潤。

得知信息越多,利潤反而可能會下降,這一結論違背我們的常識,但卻是我們證明出的結果。在想想舉例子前說的容易,是不是有了一些反差感,這就是數學美麗的地方,把一些看似簡單易懂、看似無用的理論變成令人驚奇的東西。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM