博弈論入門:一、博弈論基本概念及完全信息靜態博弈


前言

本文只是讓讀者對博弈論有個初步的了解,能夠基本和人“侃大山”。

博弈論正式定義

  • The study of mathematical models of conflict and cooperation between intelligent rational(理性的) decision-makers.

博弈分類

  1. 完全信息靜態博弈(static games of complete information)。
  2. 非完全信息靜態博弈(static games of incomplete information)。
  3. 完全信息動態博弈(dynamic games of complete information)。
  4. 非完全信息動態博弈(dynamic games of incomplete information)。

解釋:

  • 完全信息表示所有參與人的 utility function (收益函數)都是公開的,並且所有人都知道收益函數是公開的。而 utility function($S_1 \times \cdots \times S_n \mapsto Z$) 的大概意思是:每個參與人都各自有一個 utility function,記為 $u_i$(表示第 $i$ 個人的 utility function),當每個參與人都做出一個行動,並形成一個行動序列,記為$(x_1,x_2,\cdots,x_n)$($x_i$ 表示第 $i$ 個人的行動),$u_i(x_1,x_2,\cdots,x_n)$表示參與人 $i$ 在這個行動序列中的收益(utility or payoff)。
  • 非完全信息表示存在一個參與人不知道其他參與人的 utility function,最特殊的情況是被稱為 sealed-bid auction(密封報價拍賣),即每個人作出的行動都放在密封的信封中,因此只知道自己的行動,不知道其他人的行動。
  • 靜態表示每個參與人的行動是同時的,或者說,每個參與人作出行動時並不知道其他參與人所做的行動(想象每個參與人都在不同的房間里,各自把所做的行動寫在紙頭上,等到所有人都做出行動后,把這些紙頭同時拿出房間,這就構成了行動序列)。比如石頭剪刀布博弈就是靜態的博弈。
  • 動態表示每個參與人的行動是序列的,即可能一個參與人是基於某個其他參與人的行動再做行動的。

完全信息靜態博弈的標准式描述(Normal-Form Representation)

博弈的英文翻譯是 game,在世界上有許許多多的 game,通俗的比如有石頭剪刀布、打牌等。那么怎么能夠形式化地對這些博弈建模就是“標准式描述”的目的,即標准式描述是對任意一個博弈問題進行精確描述的方法(即任何一個博弈問題都能夠轉化成標准式描述)。

完全信息靜態博弈是最簡單的博弈。完全信息靜態博弈是由三部分組成:

  1. 參與人(player)。
  2. 每個參與人的戰略空間(strategy space)。通俗地說就是每個人可以選擇的行動的集合。
  3. 每個參與人的收益函數(utility function)。

因此任何博弈都由這三部分組成,比如石頭剪刀布的參與人是兩個 players,每個參與人的戰略空間是{石頭,剪刀,布},收益函數雖不明確但一定存在。

完全信息靜態博弈的標准式描述如下:

  • 在一個 $n$ 人博弈的標准式描述中,參與人的戰略空間為 $S_1,\cdots,S_n$,收益函數為 $u_1,\cdots,u_n$,我們用 $G=\{S_1,\cdots,S_n~;~u_1,\cdots,u_n\}$ 表示這個博弈。

也就是說,任何完全信息靜態博弈都可以用上面的方式來定義。后面會舉一些例子來具體化。

通常我們對於二人博弈這種簡單的博弈(僅限於二人博弈),標准式描述可以用雙變量矩陣(bi-matrix)表示,比如每個參與人都有兩個可選戰略,則雙變量矩陣如下:

在上圖中,每個單元格都有兩個數字,前者為參與者 1 的收益,后者為參與者2的收益。比如當參與者 1 選擇戰略 1,參與者 2 選擇戰略 1 時,參與者 1 的收益是 a,參與人 2 的收益是 b(其他以此類推)。

特別的博弈

  1. Constant Sum Game(常和博弈):對於任何戰略組合,所有參與者的 utility 之和為常數,即 $\forall S=(s_1,\cdots,s_n), \sum_{i=1}^{n}u_i(s_1,\cdots,s_n)=0$。
  2. Zero Sum Game(零和博弈):他是常和博弈的特例。對於任何戰略組合,所有參與者的 utility 之和為0。

純戰略(Pure Strategy)與混合戰略(Mixed Strategy)

為了簡單起見,這里假設是二人博弈且戰略空間大小為2。

  • 純戰略:參與者將要做的戰略是確定的,比如在某次行動中,參與者將選擇戰略A。純戰略可以看作是混合戰略的一個特例。
  • 混合戰略:參與者將要做的戰略是不確定的,比如在某次行動中,參與者有30%的概率選擇戰略A,有70%的概率選擇戰略B,用(0.3,0.7)表示。

下面給出混合戰略的正式定義:

  • 在$n$個參與人的標准式博弈$G=\{S_1,\cdots,S_n~;~u_1,\cdots,u_n\}$中,假設$S_i=\{s_{i1},\cdots,s_{iK}\}$。那么,參與者 $i$ 的一個混合戰略為概率分布 $p_i=(p_{i1},\cdots,p_{iK})$,其中對所有 $k=1,\cdots,K,0\leq p_{ik} \leq 1$,且 $p_{i1}+\cdots+p_{iK}=1$。

劣戰略(Dominated Strategy) 與 優戰略(Dominant Strategy)

首先看清楚英語解釋,這兩個英語解釋很容易搞混(dominant 與 dominated)。

劣戰略:

  • 給定一個博弈的標准式描述 $G=\{S_1,\cdots,S_n~;~u_1,\cdots,u_n\}$,令 $s_i^{*}$ 是參與者 $i$ 的某個戰略,$s_i$ 是參與者 $i$ 的除了 $s_i^{*}$ 的任意戰略, 對於其他參與者的任何戰略組合 $(s_1,\cdots,s_{i-1},s_{i+1},\cdots,s_n)$,$u_i(s_1,\cdots,s_{i-1},s_i^{*},s_{i+1},\cdots,s_n) \leq u_i(s_1,\cdots,s_{i-1},s_i,s_{i+1},\cdots,s_n)$,則稱 $s_i^{*}$ 是參與者 $i$ 的劣戰略。
  • 當 $u_i(s_1,\cdots,s_{i-1},s_i^{*},s_{i+1},\cdots,s_n) < u_i(s_1,\cdots,s_{i-1},s_i,s_{i+1},\cdots,s_n)$,則稱 $s_i^{*}$ 是參與者 $i$ 的嚴格劣戰略(Strictly Dominated Strategy)。

優戰略:

  • 給定一個博弈的標准式描述 $G=\{S_1,\cdots,S_n~;~u_1,\cdots,u_n\}$,令 $s_i^{*}$ 是參與者 $i$ 的某個戰略,$s_i$ 是參與者 $i$ 的除了 $s_i^{*}$ 的任意戰略, 對於其他參與者的任何戰略組合 $(s_1,\cdots,s_{i-1},s_{i+1},\cdots,s_n)$,$u_i(s_1,\cdots,s_{i-1},s_i^{*},s_{i+1},\cdots,s_n) \geq u_i(s_1,\cdots,s_{i-1},s_i,s_{i+1},\cdots,s_n)$,則稱 $s_i^{*}$ 是參與者 $i$ 的優戰略。
  • 當 $u_i(s_1,\cdots,s_{i-1},s_i^{*},s_{i+1},\cdots,s_n) > u_i(s_1,\cdots,s_{i-1},s_i,s_{i+1},\cdots,s_n)$,則稱 $s_i^{*}$ 是參與者 $i$ 的嚴格優戰略(Strictly Dominant Strategy)。

納什均衡(Nash Equilibrium)和納什定理(Nash Theorem)

納什均衡在博弈論中是一個很重要的概念,所謂均衡就是所有人都願意維持現狀(穩定狀態的),而不願意改變行動,因為一旦改變行動就會讓自己的收益變差。接下來給出正式定義:

  •  在$n$個參與人的標准式博弈$G=\{S_1,\cdots,S_n~;~u_1,\cdots,u_n\}$中,如果戰略組合 $\{s_1^{*},\cdots,s_n^{*}\}$滿足對任何一個參與者 $i$,$s_i^{*}$是他針對其他$n-1$個參與者所選戰略 $\{s_1^{*},\cdots,s_{i-1}^{*},s_{i+1}^{*},\cdots,s_n^{*}\}$的最優戰略,則稱戰略組合 $\{s_1^{*},\cdots,s_n^{*}\}$是該博弈的一個納什均衡。

對於上面的定義,需要注意幾點:

  • 此處的戰略可能是純戰略或混合戰略。
  • 一個博弈可能存在多個納什均衡。

那么可能有人會問,納什均衡是否一定存在?納什在1950年提出了“納什定理”:

  • 在$n$個參與人的標准式博弈$G=\{S_1,\cdots,S_n,u_1,\cdots,u_n\}$中,如果 $n$ 是有限的,且對每個 $i$,$S_i$是有限的,則博弈至少存在一個納什均衡(此均衡中可能包含混合戰略)。

后續文章還會介紹:對稱納什均衡(Symmetric Nash Equilibrium)、本地無嫉妒(Local Envy-freeness)、貝葉斯納什均衡(Bayesian Nash Equilibrium)。

需要注意幾點:

  • 如果存在混合戰略納什均衡,則只存在一個。
  • 可能不存在純戰略納什均衡,但存在一個混合戰略納什均衡。

優戰略與納什均衡的關系

  • 納什均衡是針對某個戰略組合來說的,即一般說“某個戰略組合是納什均衡的”。
  • 優戰略是針對某個人的某個戰略來說的,即一般說“某個參與人的某個戰略是優戰略”。

關於納什均衡與優戰略的例子

通過對上面圖的觀察可知:

  • (B,R) 是納什均衡。
  • B 不是參與人 1 的優戰略,R 也不是參與人 2 的優戰略。

例子1:囚徒的困境(Prisoner's Dilemma)

這是一個博弈論經典的例子,我們就這個例子把所有的概念都串一遍。

  • 場景:兩個犯罪嫌疑人被捕並受指控,但除非一個人招認犯罪,否則警方並不能判刑,警方把他們兩個關入不同的牢室(此處體現了這是靜態博弈),並對它們說明不能行動帶來的后果(此處就體現了這是完全信息博弈)如下面的雙變量矩陣所示(Mum表示沉默,Fink表示招認):

首先解釋一下上面的圖:

  • 每個嫌疑犯都有兩個可選戰略:Mum 和 Fink。
  • 當一個嫌疑犯招認,另一個沉默,則沉默者判刑 9 個月(-9),招認者釋放(0)。其他的類似。

簡單分析:

  • 從上圖中看出沉默相比於招認是嚴格劣戰略,因為當參與者2選擇沉默時,如果參與者1選擇沉默,則會判刑1個月,但是如果參與者1選擇招認,則會馬上釋放(0>-1);當參與者2選擇招認時,如果參與者1選擇沉默,則會判刑9個月,但是如果參與者1選擇招認,則會判刑6個月(-6>-9)。因此根據“理性的參與者不會選擇嚴格劣戰略”這個假設,此博弈的納什均衡是(招認,招認)。

解出納什均衡(利用最優反應函數):

  • 首先我們設嫌疑犯1的混合戰略為 $(r,1$-$r)$,嫌疑犯2的混合戰略為 $(q,1$-$q)$。並設 $r(q)$ 表示嫌疑犯2的混合戰略為 $(q,1$-$q)$ 后,嫌疑犯1的最優反應 $(r,1$-$r)$;$q(r)$ 表示嫌疑犯1的混合戰略為 $(r,1$-$r)$ 后,嫌疑犯2的最優反應 $(q,1$-$q)$。
  • 嫌疑犯1的期望收益:$rq($-$1)+($-$9)r(1$-$q)$-$6(1$-$r)(1$-$q)=r($-$3$-$7q)+15q$-$6$,因為 $q \in [0,1]$,因此不管 $q$ 取任何值時,$r$ 取0時嫌疑犯1的期望收益最高。
  • 嫌疑犯2的期望收益:$rq($-$1)+($-$9)(1$-$r)q$-$6(1$-$r)(1$-$q)=q($-$3$-$7r)+15r$-$6$,因為 $r \in [0,1]$,因此不管 $r$ 取任何值時,$q$ 取0時嫌疑犯2的期望收益最高。
  • 綜上分析,嫌疑犯1的最優混合戰略為(0,1),嫌疑犯2的最優混合戰略為(0,1),因此(招認,招認)為納什均衡。

例子2:石頭剪刀布博弈

這個問題太熟悉了,就不介紹規則了,下面給出雙變量矩陣:

在上圖中,如果參與者1選擇了布,參與者2選擇了石頭,則參與者1的 utility 為 1,參與者2的 utility 為 -1,其他類似。

這個游戲肯定是沒有純納什均衡的,比如,如果參與者1固定出剪刀,參與者2一定會選擇出石頭去戰勝參與者1,而參與者1相應的會選擇出布去戰勝參與者2,以此循環,因此不存在純納什均衡,而由於納什定理,一定存在一個納什均衡,因此我們能夠確定一定存在混合納什均衡。

我們利用了如下的定理解出混合策略納什均衡:

  • 在納什均衡中某個參與者使用混合戰略當且僅當此參與者選擇任何純戰略的期望收益都相等。

設參與者1的混合戰略為 (a,b,1-a-b),參與者2的混合戰略為 (c,d,1-c-d)。首先我們求出參與者1的期望收益:

  • 當參與者2出石頭,則參與者1的期望收益為:b-(1-a-b)=a+2b-1。
  • 當參與者2出布,則參與者1的期望收益為:-a+(1-a-b)=1-2a-b。
  • 當參與者2出剪刀,則參與者1的期望收益為:a-b。

根據前面提及的定理,我們可得 a+2b-1=1-2a-b=a-b ,求得:$a=1/3,~b=1/3$,同樣得$c=1/3,~d=1/3$。

因此混合戰略納什均衡為:$([1/3,1/3,1/3],[1/3,1/3,1/3])$。

參考文獻

[1] Gibbons, Robert. Game theory for applied economists. Princeton University Press, 1992.

[2] http://www.znu.ac.ir/members/afsharchim/lectures/MixedStrategy.pdf

拓展讀物

[1] 迪克西特, 內勒巴夫, 王爾山. 策略思維: 商界, 政界及日常生活中的策略競爭. 中國人民大學出版社, 2002.

[2] 劉樹林, 戎文晉. 搜索引擎廣告的機制設計理論與實踐. 科學出版社, 2010.  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM