博弈的策略式表述方法
博弈的策略式表述
-
博弈參與人(Players)
- \(N\)-參與人的集合
- \(i\)-參與人
-
博弈參與人的策略集(Strategy sets)
- \(S_i\)-參與人的策略集
- \(s_i\)-參與人的策略集的一個元素
- 所有參與人的策略放在一起,稱之為博弈的策略組合,表示為\(s = (s_1, s_2, … s_n)\)
-
博弈參與人的支付函數
- \(u_i\)-參與人\(i\)的支付函數\(i\isin N\)
\(u_i(s_1, s_2, s_3,..., s_i,..., s_n)\)
- \(u_i\)-參與人\(i\)的支付函數\(i\isin N\)
囚徒困境和公地悲劇——個人與集體
囚徒困境
坦白 | 抵賴 | |
---|---|---|
坦白 | -8,-8 | 0,-10 |
抵賴 | -10,0 | -1,-1 |
對於選擇坦白,對面無論是坦白或者抵賴,選擇坦白的結果均好於抵賴,可知,坦白屬於占優策略
指在博弈中參與人的某一個策略,不管對方使用什么策略,只要參與人使用這一策略,都可以給自己帶來最大的支付,此時稱為占優策略
(-8,-8)稱為占優策略均衡
囚徒困境揭示了這樣一個個人利益和集體利益的關系:個人正確理性的選擇往往會造成最壞的結局,降低集體的福利,而集體的最優則必然侵害個人利益的最大化。
公地悲劇
在沒有監管的情況下,人們傾向於無節制地侵占共用資源以獲得最大利益
占優策略和劣策略
占優策略:是指不論對手選擇什么,自己的某個策略都不比其他策略差的策略。
如果自己的某個策略嚴格強於(收益大於)任何其他策略,那么該策略還被稱為嚴格占優策略。
占優均衡:如果每個參與人都存在占優策略,那么這些占優策略放在一起,構成了博弈的占優均衡。
劣策略:是指不論對手選擇什么,自己都不會選擇的策略。
對於劣策略。可以直接剔除以簡化博弈,如果剔除到最后只留下唯一一個策略組合,那么這個策略組合就是我們說的重復剔除嚴格劣策略均衡。如果存在重復剔除嚴格劣策略均衡,那么我們說這個博弈是重復剔除劣策略可解的。
理性共識
零階理性共識:每個人都是理性的,但不知道其他人是否理性;
一階理性共識:除了要求每個人都是理性的,還要求每個人都知道其他人是理性的
二階理性共識:每個人是理性的,同時每個人知道其他人是理性的,並且每個人知道其他人知道自己是理性的;
最優反應
對於博弈的策略式表述\(G =(N, Si, ui)\),$ i \isin N$
對於參與人\(i\),給定其他參與人策略組合\(s_{-i}\),i關於的最優反應集是滿足如下條件參與人\(i\)的策略集\(B_i(s_-i)=\{s_i \isin S_i |u_i(s_i,s_-i>=u_i(s_i',s_{-i}),for all s_i\}\)
最優反應是關於其他人策略的函數,只與其他人策略有關。
納什均衡
對於博弈的策略式表述\(G=(N,S_i,u_i),i \isin N\)
對於任意的參與人\(i \isin N\),如存在一個策略組合\(s^*=(s_i^{*},s_{-i}^{*})\)滿足
對於一個納什均衡,所有人的策略都是其他人策略的最優反應
待思考
納什均衡強調的是個體最優,但對於整體、社會來說,則未必是好的。比如被大家責罵的過分應試教育;缺乏監管下的黑心食品生產商;缺乏監管的網購欺詐;囚徒困境和公地悲劇;過分競爭市場的惡性競爭等
囚徒困境的一般形式
合作 | 背叛 | |
---|---|---|
合作 | R,R | S,T |
背叛 | T,S | P,P |
- 條件一:T>R>P>S
- 條件2:R+R>T+S
對於1972年,Alchian & Demsets在《美國經濟評論》上發表了《生產、信息成本和經濟組織》一文,提出了解決方案:使其中人一成為所有者,另一人變成雇員,讓前者監督后者。
對於所有者,偷懶是嚴格劣策略,所以所有者一定會選擇工作。雇員選擇工作為最優反應。
連續策略中的二人合作
參與人1與參與人2合作一個項目,如果每個人都付出,雙方都會獲得合作收益。
二人的策略為選擇努力水平a1和a2,努力水平的取值范圍為閉區間[0, 4]。
對於參與人來說,如果雙方的努力水平為a1和a2,他們的收益如下:
參與人1:\(u_1 = a_1(2+a_2-a_1)\)
參與人2: \(u_2=a_2(2+a_1-a_2)\)
假設第一個人努力為4,此時第二個人最優選擇為3,當第二個人選擇為3時,第一個人的最優反應為2.5.....,以此類推,最終當兩個人的努力程度都為2時,達到一個納什均衡,為(4,4)。
然而,當兩人都選擇付出最大努力時兩人的收益是(8,8),大於納什均衡的最優值,這也體現了囚徒困境