算法博弈論_2_策略式表述博弈


博弈的策略式表述方法

博弈的策略式表述

  1. 博弈參與人(Players)

    • \(N\)-參與人的集合
    • \(i\)-參與人
  2. 博弈參與人的策略集(Strategy sets)

    • \(S_i\)-參與人的策略集
    • \(s_i\)-參與人的策略集的一個元素
    • 所有參與人的策略放在一起,稱之為博弈的策略組合,表示為\(s = (s_1, s_2, … s_n)\)
  3. 博弈參與人的支付函數

    • \(u_i\)-參與人\(i\)的支付函數\(i\isin N\)
      \(u_i(s_1, s_2, s_3,..., s_i,..., s_n)\)

囚徒困境和公地悲劇——個人與集體

囚徒困境

坦白 抵賴
坦白 -8,-8 0,-10
抵賴 -10,0 -1,-1

對於選擇坦白,對面無論是坦白或者抵賴,選擇坦白的結果均好於抵賴,可知,坦白屬於占優策略

指在博弈中參與人的某一個策略,不管對方使用什么策略,只要參與人使用這一策略,都可以給自己帶來最大的支付,此時稱為占優策略

(-8,-8)稱為占優策略均衡

囚徒困境揭示了這樣一個個人利益和集體利益的關系:個人正確理性的選擇往往會造成最壞的結局,降低集體的福利,而集體的最優則必然侵害個人利益的最大化。

公地悲劇

在沒有監管的情況下,人們傾向於無節制地侵占共用資源以獲得最大利益

占優策略和劣策略

占優策略:是指不論對手選擇什么,自己的某個策略都不比其他策略差的策略。

如果自己的某個策略嚴格強於(收益大於)任何其他策略,那么該策略還被稱為嚴格占優策略

占優均衡:如果每個參與人都存在占優策略,那么這些占優策略放在一起,構成了博弈的占優均衡。

劣策略:是指不論對手選擇什么,自己都不會選擇的策略。

對於劣策略。可以直接剔除以簡化博弈,如果剔除到最后只留下唯一一個策略組合,那么這個策略組合就是我們說的重復剔除嚴格劣策略均衡。如果存在重復剔除嚴格劣策略均衡,那么我們說這個博弈是重復剔除劣策略可解的

理性共識

零階理性共識:每個人都是理性的,但不知道其他人是否理性;

一階理性共識:除了要求每個人都是理性的,還要求每個人都知道其他人是理性的

二階理性共識:每個人是理性的,同時每個人知道其他人是理性的,並且每個人知道其他人知道自己是理性的;

最優反應

對於博弈的策略式表述\(G =(N, Si, ui)\),$ i \isin N$

對於參與人\(i\),給定其他參與人策略組合\(s_{-i}\),i關於的最優反應集是滿足如下條件參與人\(i\)的策略集\(B_i(s_-i)=\{s_i \isin S_i |u_i(s_i,s_-i>=u_i(s_i',s_{-i}),for all s_i\}\)

最優反應是關於其他人策略的函數,只與其他人策略有關。

納什均衡

對於博弈的策略式表述\(G=(N,S_i,u_i),i \isin N\)

對於任意的參與人\(i \isin N\),如存在一個策略組合\(s^*=(s_i^{*},s_{-i}^{*})\)滿足

\[s_{i}^{*} \isin B_i(s_{-i}^{*}) \]

對於一個納什均衡,所有人的策略都是其他人策略的最優反應

image

待思考

納什均衡強調的是個體最優,但對於整體、社會來說,則未必是好的。比如被大家責罵的過分應試教育;缺乏監管下的黑心食品生產商;缺乏監管的網購欺詐;囚徒困境和公地悲劇;過分競爭市場的惡性競爭等

囚徒困境的一般形式

合作 背叛
合作 R,R S,T
背叛 T,S P,P
  • 條件一:T>R>P>S
  • 條件2:R+R>T+S

對於1972年,Alchian & Demsets在《美國經濟評論》上發表了《生產、信息成本和經濟組織》一文,提出了解決方案:使其中人一成為所有者,另一人變成雇員,讓前者監督后者。

對於所有者,偷懶是嚴格劣策略,所以所有者一定會選擇工作。雇員選擇工作為最優反應。

image

連續策略中的二人合作

參與人1與參與人2合作一個項目,如果每個人都付出,雙方都會獲得合作收益。

二人的策略為選擇努力水平a1和a2,努力水平的取值范圍為閉區間[0, 4]。

對於參與人來說,如果雙方的努力水平為a1和a2,他們的收益如下:

參與人1:\(u_1 = a_1(2+a_2-a_1)\)

參與人2: \(u_2=a_2(2+a_1-a_2)\)

假設第一個人努力為4,此時第二個人最優選擇為3,當第二個人選擇為3時,第一個人的最優反應為2.5.....,以此類推,最終當兩個人的努力程度都為2時,達到一個納什均衡,為(4,4)。

image

然而,當兩人都選擇付出最大努力時兩人的收益是(8,8),大於納什均衡的最優值,這也體現了囚徒困境


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM