讀書筆記: 博弈論導論 - 總結
總結
本文是Game Theory An Introduction (by Steven Tadelis) 的學習筆記的總結。
博弈論
博弈論是關於智能理性決策者的協作和沖突的數學模型的研究。
博弈論的目的可以說是研究尋找博弈均衡的方法。
博弈論的直接目標不是找到一個玩家的最佳策略,而是找到所有玩家的最理性策略組合。
我們稱最理性策略組合為均衡。
博弈論(也叫逆向博弈論)的另外一個作用是機制設計,根據期望的結果,設計一個博弈體系。
博弈論的分類
這本書中將博弈論的只是分為四類:
- 完整信息的靜態博弈
- 完整信息的動態博弈
- 不完整信息的靜態博弈
- 不完整信息的動態博弈
博弈論的數學模型
-
普通形式博弈(normal-form game)的數學表達
- 一個有限的玩家集合, \(N = {1, 2, \cdots, n}\)
- 每個玩家的純策略集合的組合, \({S_1, S_2, \cdots, S_n}\)
- 一套收益函數, \({v_1, v_2, \cdots, v_n}\),對於每個玩家,每一種所有玩家選擇的策略組合,都有一個收益值。
$v_i: S_1 \times S_2 \times \cdots \times S_n \text{ for each } i \in N $
-
貝葉斯博弈(Bayesian Game)
用於描述不完整信息博弈。
術語
-
靜態博弈(static game) vs 動態博弈(dynamic game)
靜態博弈指所有玩家同時、獨立做出選擇。也叫做同時博弈(Simultaneous game)
動態博弈指所有玩家按照次序做出選擇。也叫做序貫博弈(Sequential game)、序列博弈。 -
完整信息博弈(Complete information game) and 不完整信息博弈(Incomplete information game)
完整信息博弈是指所有知識被所有玩家都了解,就是成為了公共知識。
不完整信息博弈是指一個玩家不知道其他玩家的部分信息(actions, outcomes, payoffs)。 -
完美信息博弈(Information perfect game) vs 不完美信息博弈(Information imperfect game)
完美信息博弈指一個玩家知道對手做出了選擇,並且知道對手的選擇是什么。比如:圍棋。
不完美信息博弈指一個玩家知道對手做出了選擇,但是不知道對手的選擇是什么。比如:德州撲克。 -
普通形式博弈(Normal-Form Game) vs 擴展形式博弈(Extensive-Form Game)
博弈的數學化定義方式。
普通形式博弈比較簡單,適用描述信息較少的情況,比如:兩個玩家的純策略的靜態博弈。
擴展形式博弈用於形式化描述博弈。無論完美信息還是不完美信息,完整信息還是不完整信息都可以。
針對不完美信息,支持信息集的概念。
針對不完整信息,支持Nature和類型概念。 -
Subgame-perfect equilibrium
這里主要說perfect這個詞,這個詞和equilibrium用在一起時,常常有精煉(refinement)的意思,表示優化均衡的結果。 -
序貫(sequential)
序貫表示連續的。 -
信念(beliefs),
玩家i的一個信念就是他的對手們的一個可能的策略組合。 -
最佳反應(Best Response)
當其他玩家策略已知時,玩家i的優勢策略就是其最佳反應。
這是博弈論的中心。理性,序貫理性的意味就是最佳反應。均衡的結果也來自於最佳反應。
最佳反應:對於玩家i,給定其對其他玩家的信念,他會選擇在這個信念上對自己最好的行為。 -
序貫理性(Sequential Rationality)
在博弈中的每個階段,玩家都保持理性。 -
信任系統(a system of beliefs)
對每個信息集上一個行動的選擇概率。見后面的數學定義。 -
信譽(Reputation)
在博弈論中,玩家為了證明自己的信譽(自己的類型),會選擇一種行為,這種行為只會對自己的類型有益,而對其它類型有損失。
經典博弈問題
- 囚徒困境(Prisoner's Dilemma)
兩個囚徒選擇沉默(mum)和告密(flink)的一個靜態博弈問題。
玩家2 | |||
---|---|---|---|
m | f | ||
玩家1 | M | 4, 4 | -1, 5 |
F | 5, -1 | 1, 1 |
- 報復博弈(Revenge Game)
報復博弈一般和囚徒困境組成一個兩階段博弈。
兩個囚徒在玩完囚徒困境后,進入報復博弈,選擇單獨人(loner)和加入幫派(gang)的一個靜態博弈問題。
玩家2 | |||
---|---|---|---|
l | g | ||
玩家1 | L | 0, 0 | -4, -1 |
G | -1, -4 | 1, 1 |
- 古諾雙寡頭(The Cournot Duopoly)
- (p-Beauty Contest)
- 兩性之爭(the Battle of the Sexes)
策略
一個策略是一個玩家在博弈中,根據當時的情況,選擇其行動的邏輯。
策略有各種各樣的。我們可以想象每個策略都是如果這樣,我就選擇行動X,等等。
博弈理論中定義了一些策略。
-
純策略(Pure Strategy)
玩家總是選擇一個特定的行動。 -
混合策略(Mixed Strategy)
玩家在選擇行動上有一個可能性分布。但是最終會選擇一個純策略。 -
行為策略(Behavioral Strategy)
玩家在選擇行動上有一個可能性分布。一般用於動態博弈的自然選擇,所以總是使用這個可能性分布來計算(期望收益等)。正式的說法是:對每個信息集指定一個行動上的獨立可能性分布。
-
條件選擇策略(Conditional Play)
如果怎樣,我會怎樣的策略。 -
獎罰策略(Reward-and-punishment Strategy)
好行為被獎勵,壞行為被懲罰的策略。用於多階段博弈。 -
殘忍觸發策略(Grim-trigger strategy)
在第一階段上選擇一個合作(符合子博弈精煉均衡)的行動;
在以后的階段里,繼續選擇這個合作行動,當且僅當對方也一直選擇合作的行動;否則選擇懲罰性的行動。 -
使用第三方作為信譽機制(Third-Party Institutions as Reputation Mechanisms)
在多階段博弈中,如何保證協作的一種機制。
玩家1:如果玩家2支付保證金給玩家3(第三方),則信任玩家2,否則不信任。
玩家2:在階段1,支付保證金給玩家3。在以后的階段中,如果玩家3一直遵守保證金協議,則繼續支付保證金。
如果支付保證金了,則於玩家1合作,否則叛變。
玩家3:(保證金協議)在一個階段中,如果玩家2合作,則返回保證金給玩家2;否則不返回保證金。 -
不使用第三方的信譽機制(Reputation Transfers without Third Parties)
在多階段博弈中,如何保證協作的一種機制。
玩家\(P_1^1\):如果玩家\(P_2^1\)創建了一個唯一的商標,則信任玩家\(P_2^1\),否則不信任。
玩家\(P_2^1\):在階段1,選擇一個唯一的商標,和玩家1合作。然后,把商標以價格\(p^* > 1\)賣給下家(玩家\(P_2^2\))。
玩家\(P_1^t(t>1)\):如果1) 玩家\(P_2^t\)從玩家\(P_2^{t-1}\)手里買了這個唯一的商標,2) 而且這個商標沒有被濫用(叛變)過,則信任玩家\(P_2^t\),否則不信任。
玩家\(P_2^t(t>1)\):如果1) 玩家\(P_2^{t-1}\)從玩家\(P_2^{t-2}\)以價格\(p^*\)手里買了這個唯一的商標,2) 而且這個商標沒有被濫用(叛變)過,和玩家\(P_1^t(t>1)\)合作。然后,把商標以價格\(p^*\)賣給下家(玩家\(P_2^{t+1}\))。
方法
-
嚴格劣勢策略(strictly dominated strategy)
一個理性玩家不會選擇一個嚴格劣勢策略。 -
優勢策略(Dominant Strategy)
如果有的話,玩家一定會選擇優勢策略。 -
帕累托優勢(pareto dominate)
-
重復剔除嚴格劣勢均衡(Iterated elimination of strictly dominated strategies (IESDS))
如果能夠找到一個嚴格劣勢策略,將其刪除掉,簡化了博弈;
然后在簡化的博弈中,重復上面的過程,直到有一個優勢策略為止。 -
納什均衡(Nash equilibrium)
納什均衡的定義是:在一個策略組合中,如果一個玩家i,當其他所有玩家的策略都不變時(是這個策略組合中的玩家策略),玩家i的策略是個最佳反應。
如果這個條件對每個玩家都成立,則這個策略組合是一個納什均衡。
納什均衡的概念可以從純策略組合,推廣到混合策略(期望收益)、(動態博弈的)行為策略、(不完整信息)貝葉斯納什均衡。
納什證明了每個博弈都至少有一個納什均衡。
納什均衡相當於在博弈論中發現了一個新大陸。
一個問題是納什均衡的解往往很多,因此,有一個精煉的概念,就是我們常常看到詞perfect,其目的是近一步減少納什均衡的解。
-
子博弈精煉(Subgame perfection)
子博弈精煉是對納什博弈的一種優化。
要求對於一個行為策略組合\(\sigma^*\),滿足在任何一個合適的子博弈中,這個行為策略組合\(\sigma^*\)都是一個納什均衡。 -
逆向歸納法(Backward induction solution)
在擴展形式博弈樹中,可以形象的看出:
從底層開始,玩家在每個父節點的子節點集合中,選擇出(最佳反應的)其會獲得最大收益的行為。每個父節點會對應一個或者幾個最佳反應節點。
將這些節點的收益值作為其父節點的收益值。
重復迭代可以找到所有玩家的一個子博弈精煉均衡。 -
貝葉斯納什均衡(Bayesian Nash equilibrium)
可以說是納什均衡在不完整信息博弈中的擴展。大概的意思是計算了其他玩家類型的分布概率上的收益期望。
注意:子博弈精煉不適用於不完整信息博弈,主要原因是不知道其他玩家的類型,導致在子博弈上難以確定收益。 -
精煉貝葉斯均衡(perfect Bayesian equilibrium)
在不完整信息博弈中,精煉貝葉斯均衡是一個貝葉斯納什均衡和一個信任系統的組合,並需要滿足下面四個需求:
精煉貝葉斯均衡(perfect Bayesian equilibrium)的四個需求:- 需求 15.1
每個玩家在每個信息集上,都將有一個意義明確的信念(關於他的位置)。也就是說博弈將有一個信念體系。 - 需求 15.2
\(\sigma^* = (\sigma_1^*, \cdots, \sigma_n^*)\)是一個不完整信息博弈的貝葉斯納什均衡,我們要求在所有信息集上,在均衡路徑上的信念符合貝葉斯規則。 - 需求 15.3
對於不在均衡路徑上的信息集,其信念值可以是任何值。 - 需求 15.4
給定玩家的信念,玩家的策略必須是序貫理性。也就是說在每一個信息集上,玩家將選擇信念對應的最佳反應。
- 需求 15.1
原理
單階段偏差原理(The One-Stage Deviation Principle)
在理解單階段偏差原理之前,我們先回顧一些背景知識:
- 每個博弈都存在至少一個納什均衡。
- 在有限多階段博弈中,如果每個階段博弈都有唯一的納什均衡,則多階段博弈的最優結果就是這些納什均衡的組合(的路徑)。
- 在有限多階段博弈中,如果至少有一個階段博弈有多個的納什均衡,則多階段博弈的最優策略組合可能會偏離階段博弈的納什均衡。
那么在多階段博弈中,在多階段博弈的擴展形式博弈樹(extensive-form game tree)上,一條路徑的收益是容易得到的,只要求出每個階段博弈的收益總和就可以了。
這樣,我們也可以比較容易計算兩條路徑中,哪個更優(一般和折扣率有關)。
問題是:對於玩家i來說,當其他玩家的策略組合\(\sigma_i\)給定的時,如何找到玩家i的最佳反應(best response)?
注:這里的策略可以是任何策略,比如純策略,混合策略,條件策略等。
這里邊,一個比較麻煩的問題是路徑太多。比如:考慮一下一個有五個階段的博弈。
幸運的是,上面這個駭人的問題可以被簡化- 這就是單階段偏差原理。
單階段偏差原理的含義是,當其他玩家的策略組合\(\sigma_i\)給定的時,判斷玩家i的一條路徑是否最優,只要看這個路徑(策略)是不是單點不可改善(one-shot unimprovable)。
因此只要檢測和它有一個信息集不同的那些路徑就可以了。
比如:如果一個階段博弈有A和B兩個行動,在一個三階段的重復博弈中,判斷一條玩家的路徑(策略)AAA是否是不可改善,只需要對比BAA,ABA和AAB就可以了。
很明顯,這個原則只適合於有限多階段博弈。
其實原書中,對於Prisoner-Revenge Game,計算折扣率,可以看成對單階段偏差原理的過程描述,只不過只是比較兩個路徑。
下面加上書中的定義和定理,以供參考。
單階段偏差原理表述如下:
一個階段的不可改善策略必定是最優的。
這意味着,如果在一個階段博弈中,存在一個單階段不可改善策略,則不會發生偏離,也就是不存在非納什均衡的最優策略。
反之,則一定會發生偏離的情況。
單階段不可改善策略的定義如下:
一個策略\(\sigma_i\)是單階段不可改善的,則:
不存在信息集\(h_i\)和行動\(a \in A_i(h_i)\)和對應的策略\(\sigma_i^{a, h_i}\)(其為除了信息集\(h_i\)以外,和\(\sigma_i\)都一致的策略),有\(\sigma_i^{a, h_i} > v_i(\sigma_i, h_i)\)。
參照見One-shot deviation principle
基本數學符合
\(\Gamma\): 博弈(game)
\(N\): 玩家(player)集合
\(i\): 玩家i, \(i \in N\)
\(X\): 結果(outcome)集合。
\(X_i\): 玩家i的結果(outcome)集合。
\(x_i\): 玩家i的一個結果(outcome)。
\(S\): 策略集合(strategy set), \(S \equiv S_1 \times S_2 \times \cdots \times S_n\).
\(S_i\): 玩家i的策略集合(strategy set)
\(S_{-i}\): 除去玩家i的策略集合(strategy set), \(S_{-i} \equiv S_1 \times S_2 \times \cdots \times \S_{i-1} \times \S_{i+1} \times \cdots \times S_n\).
\(s = (s_1, s_2, \cdots, s_n)\): 表示所有玩家的一個策略組合。
\(s_i\): 玩家i的一個策略(strategy),\(s_i \in S_i\)。
\(s_{-i} = (s_1, s_2, \cdots, s_{i-1}, s_{i+1}, \cdots, s_n)\): 表示除了玩家i,以外的所有玩家的一個策略組合。
\(A_i\): 玩家i的行動集合。
\(a_i\): 玩家i的一個行動,\(a_i \in A_i\)。
\(\mathbb{R}\)AAAAA: 實數。
\(u_i: X \to \mathbb{R}\): 玩家i的收益函數,基於一個結果組合。
\(v_i: s \to \mathbb{R}\): 玩家i的收益函數,基於一個策略組合。
\(H_i\): 玩家i的信息集的集合
\(h_i\): 玩家i的一個信息集,\(h_i \in H_i\)。
\(A_i(h_i)\): 玩家i的一個信息集\(h_i\)對應的行動集合。
\(s_i(h_i)\): 玩家i的一個純策略。\(s_i(h_i) \in A_i(h_i)\)
\(T\): 多階段博弈的所有時期。
\(t\): 多階段博弈的一個時期。
\(p(x_k | a)\): 采取行動a時,產生結果\(x_k\)的概率。
\(E(u(x) | a)\): 采取行動a的期望收益。
\(0 < \delta < 1\): (多階段博弈中的)折扣率。
動態博弈(Dynamic Game)
策略組合\(\sigma = (\sigma_1, \cdots, \sigma_n)\): 一個動態博弈的混合策略組合(mixed strategies profile)。
不完整信息博弈
\(\Theta\) : 所有玩家的類型空間(type space)集合。
\(\Theta_i = \{ \theta_{i1}, \cdots, \theta_{ik}\}\) : 玩家i的類型空間(type space)。
\(\theta_i\) : 玩家i的類型(type)。
\(\theta_{-i}\) : 除了玩家i以外其他玩家的類型(type)。
\(\phi_i\) : 玩家 i 對其他玩家 type 的信任分布概率。
\(v_i(a; \theta_i)\) : 當在type \(\theta_i\)下,依賴於一個行動組合的玩家收益函數,
機制設計
\(m_i \in \mathbb{R}\) : 玩家i的資金。
\(Y\) : 所有玩家(機制設計的)結果組合集合。
\(y = (x, m_1, \cdots, m_n)\) : 所有玩家(機制設計的)一個結果組合。
\(\Gamma = \langle A_1, \cdots, A_n, g(\cdot) \rangle\) : 一個機制。
不完整信息的動態博弈
\(\mu\): 信任系統(a system of beliefs),對每個信息集上一個行動的選擇概率。
參照
- Game Theory An Introduction (by Steven Tadelis)
- 讀書筆記: 博弈論導論 - 01 - 單人決策問題
- 讀書筆記: 博弈論導論 - 02 - 引入不確定性和時間
- 讀書筆記: 博弈論導論 - 03 - 完整信息的靜態博弈 預備知識
- 讀書筆記: 博弈論導論 - 04 - 完整信息的靜態博弈 理性和公共知識
- 讀書筆記: 博弈論導論 - 05 - 完整信息的靜態博弈 納什均衡
- 讀書筆記: 博弈論導論 - 06 - 完整信息的靜態博弈 混合的策略
- 讀書筆記: 博弈論導論 - 07 - 完整信息的動態博弈 預備知識
- 讀書筆記: 博弈論導論 - 08 - 完整信息的動態博弈 可信性和序貫理性
- 讀書筆記: 博弈論導論 - 09 - 完整信息的動態博弈 多階段博弈
- 讀書筆記: 博弈論導論 - 10 - 完整信息的動態博弈 重復的博弈
- 讀書筆記: 博弈論導論 - 11 - 完整信息的動態博弈 戰略協議
- 讀書筆記: 博弈論導論 - 12 - 不完整信息的靜態博弈 貝葉斯博弈
- 讀書筆記: 博弈論導論 - 13 - 不完整信息的靜態博弈 拍賣和競標
- 讀書筆記: 博弈論導論 - 14 - 不完整信息的靜態博弈 機制設計
- 讀書筆記: 博弈論導論 - 15 - 不完整信息的動態博弈 序貫理性
- 讀書筆記: 博弈論導論 - 16 - 不完整信息的動態博弈 信號傳遞博弈
- 讀書筆記: 博弈論導論 - 17 - 不完整信息的動態博弈 建立信譽
- 讀書筆記: 博弈論導論 - 18 - 不完整信息的動態博弈 信息傳遞和廉價談判
- 讀書筆記: 博弈論導論 - 總結
- Nash bargaining solution
- Mechanism design
- Sequential equilibrium
- Perfect Bayesian equilibrium
- Game theory