博弈的策略式表述方法

博弈的策略式表述

博弈參與人（Players）
- $N$-參與人的集合
- $i$-參與人
博弈參與人的策略集（Strategy sets）
- $S_i$-參與人的策略集
- $s_i$-參與人的策略集的一個元素
- 所有參與人的策略放在一起，稱之為博弈的策略組合，表示為$s = (s_1, s_2, … s_n)$
博弈參與人的支付函數
- $u_i$-參與人$i$的支付函數$i\isin N$
  $u_i(s_1, s_2, s_3,..., s_i,..., s_n)$

	坦白	抵賴
坦白	-8，-8	0，-10
抵賴	-10，0	-1，-1

對於選擇坦白，對面無論是坦白或者抵賴，選擇坦白的結果均好於抵賴，可知，坦白屬於占優策略

指在博弈中參與人的某一個策略，不管對方使用什么策略，只要參與人使用這一策略，都可以給自己帶來最大的支付，此時稱為占優策略

（-8，-8）稱為占優策略均衡

囚徒困境揭示了這樣一個個人利益和集體利益的關系：個人正確理性的選擇往往會造成最壞的結局，降低集體的福利，而集體的最優則必然侵害個人利益的最大化。

在沒有監管的情況下，人們傾向於無節制地侵占共用資源以獲得最大利益

占優策略：是指不論對手選擇什么，自己的某個策略都不比其他策略差的策略。

如果自己的某個策略嚴格強於（收益大於）任何其他策略，那么該策略還被稱為嚴格占優策略。

占優均衡：如果每個參與人都存在占優策略，那么這些占優策略放在一起，構成了博弈的占優均衡。

劣策略：是指不論對手選擇什么，自己都不會選擇的策略。

對於劣策略。可以直接剔除以簡化博弈，如果剔除到最后只留下唯一一個策略組合，那么這個策略組合就是我們說的重復剔除嚴格劣策略均衡。如果存在重復剔除嚴格劣策略均衡，那么我們說這個博弈是重復剔除劣策略可解的。

零階理性共識：每個人都是理性的，但不知道其他人是否理性；

一階理性共識：除了要求每個人都是理性的，還要求每個人都知道其他人是理性的

二階理性共識：每個人是理性的，同時每個人知道其他人是理性的，並且每個人知道其他人知道自己是理性的；

對於博弈的策略式表述$G =(N, Si, ui)$,$ i \isin N$

對於參與人$i$，給定其他參與人策略組合$s_{-i}$，i關於的最優反應集是滿足如下條件參與人$i$的策略集$B_i(s_-i)=\{s_i \isin S_i |u_i(s_i,s_-i>=u_i(s_i',s_{-i}),for all s_i\}$

最優反應是關於其他人策略的函數，只與其他人策略有關。

對於博弈的策略式表述$G=(N,S_i,u_i),i \isin N$

對於任意的參與人$i \isin N$，如存在一個策略組合$s^*=(s_i^{*},s_{-i}^{*})$滿足

\[s_{i}^{*} \isin B_i(s_{-i}^{*}) \]

對於一個納什均衡，所有人的策略都是其他人策略的最優反應

納什均衡強調的是個體最優，但對於整體、社會來說，則未必是好的。比如被大家責罵的過分應試教育；缺乏監管下的黑心食品生產商；缺乏監管的網購欺詐；囚徒困境和公地悲劇；過分競爭市場的惡性競爭等

	合作	背叛
合作	R,R	S,T
背叛	T,S	P,P

對於1972年，Alchian & Demsets在《美國經濟評論》上發表了《生產、信息成本和經濟組織》一文，提出了解決方案：使其中人一成為所有者，另一人變成雇員，讓前者監督后者。

對於所有者，偷懶是嚴格劣策略，所以所有者一定會選擇工作。雇員選擇工作為最優反應。

參與人1與參與人2合作一個項目，如果每個人都付出，雙方都會獲得合作收益。

二人的策略為選擇努力水平a1和a2，努力水平的取值范圍為閉區間[0, 4]。

對於參與人來說，如果雙方的努力水平為a1和a2，他們的收益如下：

參與人1：$u_1 = a_1(2+a_2-a_1)$

參與人2: $u_2=a_2(2+a_1-a_2)$

假設第一個人努力為4，此時第二個人最優選擇為3，當第二個人選擇為3時，第一個人的最優反應為2.5.....，以此類推，最終當兩個人的努力程度都為2時，達到一個納什均衡，為（4，4）。

然而，當兩人都選擇付出最大努力時兩人的收益是(8，8)，大於納什均衡的最優值，這也體現了囚徒困境

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 淺談算法——博弈論算法博弈論—算法合謀「算法筆記」博弈論入門博弈論及算法實現（一）什么是博弈論找出游戲的必勝的策略(博弈論的學習) 博弈論：尋找先手必勝策略——Grundy值【算法學習筆記】博弈論淺析之游戲類各種博弈論詳解博弈論總結