2.3重復博弈
從這里開始,就進入博弈論比較難以理解的地方了。我也不跟着書上的章節走,根據自己的理解和書上的例子來寫,如果理解有什么不對的地方,歡迎各位大佬的指正。
首先我們來明晰博弈論到底在討論些什么:
對於這個問題,前面幾章的內容可能對大家會造成一定的誤導。因為根據前面幾章的例子,我們可以很容易地認為,博弈論就是在討論在某個規則下,參與者最優的策略和參與者之間達到的平衡。
這句話本身沒有錯誤,但是我們很容易理解為:這個平衡是像最開始那兩個囚徒一樣,選擇“保證對方不會背叛並且自己在此情況下能獲得最大利益”的戰略所達到的平衡(這句話有點難以理解,不過我相信你能明白我的意思)。例如第一章第一節中囚徒困境雙方都選擇招認(因為選擇合作即不招認,結果可能是被背叛)。
但是一旦進入了重復博弈那么我們就不能只考慮眼前的利益(即保守地只去選擇單次博弈的納什均衡),而要考慮多次重復博弈的總收益。這個時候就需要參與雙方共同商定一個“協議”(例如雙方說好都選擇不招認),這個協議必須是對於雙方都有利的(至少由於選擇單次博弈的納什均衡,例如雙方不招認總比雙方都招認要好),並且協議中會對不遵守規則的進行懲罰,以便於對每個人來說選擇合作是最好的結果。
從這里我們就可以理解“博弈論教你如何制定規則的”這句話了。
好了,這一章最核心的思想在這里已經講完了,雖然我可能說的不是那么清晰,不過還是希望你能認真理解上面所說的,這會對下面的概念理解有很大幫助。
2.3.A兩階段重復博弈
先給出幾個先行的定義和定理:
定義:對個定的階段博弈G,令G(T)表示G重復T次的有限重復博弈,並且在下一次博弈開始前,所有以前的博弈都可以被觀測到。G(T)的收益為T次階段博弈收益的簡單相加。
這個定義最重要的是引出一個重復博弈中收益的概念,即T次博弈的收益簡單相加,后面我們會提到貼現的概念,不過到這里先理解到簡單相加就行。
定理:如果階段博弈G有唯一的納什均衡,則對任意有限的T,重復博弈G(T)有唯一的子博弈精煉解:即G的納什均衡結果在每一階段重復進行。
這個定理只說明了在有限次重復博弈中只有唯一的納什均衡的情況,而多個納什均衡和無限重復博弈的情況會在后面給出。
這兩個定理和定義比較容易理解,我們也不給出例子,之后我們先討論兩階段博弈中有多個納什均衡的情況。
看如下博弈:
|
|
L2 |
M2 |
R2 |
P2 |
Q2 |
| L1 |
1,1 |
5,0 |
0,0 |
0,0 |
0,0 |
| M1 |
0,5 |
4,4 |
0,0 |
0,0 |
0,0 |
| R1 |
0,0 |
0,0 |
3,3 |
0,0 |
0,0 |
| P1 |
0,0 |
0,0 |
0,0 |
4,1/2 |
0,0 |
| Q1 |
0,0 |
0,0 |
0,0 |
0,0 |
1/2,4 |
先做幾點說明:
首先,博弈的參與者依然是兩個人,上面為參與者2左邊為參與者1。
其次,這個博弈進行兩次,兩次參與者相同,並且參與者都知道博弈的整個過程(即博弈者在第二階段是知道第一階段雙方選擇的是什么)。
我們暫且將這種博弈稱為兩階段博弈。
在這個博弈中,我們很容易發現有4個納什均衡:(L1,L2),(R1,R2),(P1,P2),(Q1,Q2)
在單次博弈中,我們是很難預測出這個博弈的結果的(由於有多個納什均衡,故而雙方將無法預測對方會選擇哪個)。但是在二階段博弈中,這個問題便會有辦法解決。
好了,為了方便理解,我們回到這一節開頭所說的制訂協議的部分,要求在這個博弈中的納什均衡事實上就是想辦法指定一個對雙方來說都沒有理由背叛的協議,並且這個協議盡可能使雙方的收益足夠高(這也可以認為是雙方不會背叛的原因)。這里我們先給出結果,並且證明這個結果是符合納什均衡和子博弈精煉的。
對於雙方來說,最希望並且最有可能實現的結果是(M1,M2),(R1,R2)。第一階段(M1,M2)的目的是讓雙方獲得的利益最大化,而第二階段(R1,R2)而非(M1,M2)的原因是雙方都有理由偏離(M1,M2)去背叛協議,因為博弈只有兩階段,第一階段背叛的話,第二階段就會受到懲罰(如何懲罰將會在下面做出說明),第二階段的背叛則沒有辦法讓他得到懲罰。
只后就是關於懲罰的問題,懲罰的規則如下:
倘若第一階段參與者1沒有選擇M1,則參與者2在第二階段選擇Q2
倘若第一階段參與者1沒有選擇M1,則參與者2在第二階段選擇P1
倘若兩人都沒有選擇M1和M2則參與者雙方第二階段選擇(R1,R2)
我們可以很容易得到,對於合作雙方得到的利益為4+3=7,對於背叛的情況,背叛者的收益為5+1/2而沒有背叛者的收益為4(不考慮背叛者不理智使得博弈的結果為(0,0)的情況)。所以這個情況中第二階段的懲罰者沒有理由重新談判來達到新的納什均衡。所以就最后的收益來說,這個協議下兩個理性人的選擇都是(M1,M2),(R1,R2),並且這個結果是子博弈精煉的。有一點要說明的是,這個博弈的結果是(M1,M2),(R1,R2)這個戰略組合本身,而非之前所說的協議本身,協議只是證明過程。
當然,這個博弈很明顯是為了證明結論特意設計的,但是無所謂,我們需要的是其中的思想。
2.3.B無限重復博弈
之前討論的是有限次數的博弈,使用了二階段博弈當作了例子,這次我們將結論擴展到無限的重復博弈情況。
這里我們要給出一個貼現因子的概念:
貼現因子δ,即下一次博弈所得的收獲轉化成當前利益的比率。舉個例子,如美元的購買力會隨着時間的變化貶值,那么一年后你得到10美元可能換算到現在相當於9.8美元,那么貼現因子就為0.98。
那么我們會有:

下面給出一個如下博弈,設每個人所持的貼現因子為δ:
|
|
L2 |
R2 |
| L1 |
1,1 |
5,0 |
| R1 |
0,5 |
4,4 |
考慮兩個參與者都采取觸發戰略:倘若在之前的博弈中沒有人選擇過L,則雙方都選擇R,即(R1,R2)。倘若在之前的博弈中出現過L,即信任破裂則雙方都會選擇納什均衡(在這個例子中納什均衡遠沒有合作的收益高)L即(L1,L2)。
我們來計算一下收益:


很容易得到,在這個無限重復博弈當中,當貼現因子δ>1/4的時候,對於雙方來說,選擇合作,即便合作並不是在納什均衡中。
這里我們可以看到即便在只有一個納什均衡的無限重復博弈中,都會存在雙方選擇合作的情況。
一般的,我們會有如下定理:
弗里德曼定理也叫無名氏定理:
令G為一個有限的完全信息靜態博弈,令(e1,…,en)表示G的一個納什均衡下的收益,且(x1,…,xn)表示G的其他任何可行收益。如果對每一個參與者i有xi>ei,且如果貼現因子∂足夠接近於1,則無限重復博弈G(∞,∂)存在一個子博弈精煉納什均衡,其平均收益可到達(x1,…,xn)。
這個定理的證明和其中一些定義的詳細解釋由於篇幅原因不列舉出來,但是我相信你已經明白了其中核心的思想。
下面我們給出一個例子來對這個定理加深理解:
2.3.C古諾雙頭壟斷下的共謀
還是之前古諾雙頭壟斷的例子,不過我們這次假設雙方進行無限次的博弈,並且設雙方的貼現因子為δ。
接下來,我們來計算在下述觸發戰略成為無限重復博弈的納什均衡時,貼現因子δ的值:
在第一階段生產壟斷產量的一半,qm/2第t階段,如果前面t-1階段兩個企業的產量均為qm/2 ,則生產qm/2,否則,生產古諾產量qc。
根據上一節的計算方法,當滿足如下式子的時候,兩企業使用觸發戰略就會成為納什均衡。
max (a-qj-1/2qm-c)qj subject to qj
當然因為這里是使用的是最優的合作方式(使用的是壟斷產量的一半),但事實上,我們可以根據不同的貼現因子來確定我們合作時產量的大小。
假設使用的合作的收益為um,對應背叛后首次收益為ud,接下來的收益為uc。當下式成立的時候,觸發戰略為納什均衡:
1/(1-δ)·1/2um>=ud+δ/(1-δ)·uc
則我們可以求出求令觸發戰略成為博弈精煉納什均衡的解:
δ>9/17
但是我們依然可以使用另一種方法(就如同協議在上一節的解釋一樣,這里只是對納什均衡的一種達成方法):阿布勒將這一思路運用到古諾模型中,比我們使用任意的貼現因子更具有一般性,在這個模型中,δ>=1/2就可以達到壟斷產量,這優於上一個模型,考慮下面的戰略:
在第一階段生產壟斷產量的一半,qm/2第t階段,如果t-1階段兩個企業的產量均為qm/2 ,否則,生產古諾產量x,如果t-1階段兩個企業的產量均為x,則生產qm/2,則生產x。
這里x會根據貼現因子計算出來,這個博弈的主要思路在於,當一方背叛了最優合作(壟斷產量的一半),則會進入懲罰使產量為x(x並非古諾博弈的均衡值)。而在懲罰的過程中又會有可能背叛,如果有人背叛,則繼續執行懲罰,如果沒人背叛懲罰,則回到合作(壟斷產量的一半)。
這里δ,x須滿足:
合作的收益>懲罰的收益>背叛懲罰的收益
具體計算過程不再一一列舉。
