1. 統計決策的基本概念
20世紀40年代,Wald提出了把統計推斷問題看成是人與自然的一種博弈過程,由此建立了統計決策理論。
統計決策問題的三個要素
在前幾章講的統計問題,都可以歸結為一個統計決策問題,也就是建立所謂的統計決策函數,統計決策問題由三個因素組成:
樣本空間和分布族
樣本空間:設樣本 (X1、.. 、Xn) 來自總體 F(x, θ), θ 未知,則樣本所有可能值組成的集合稱為樣本空間,記為 X 。
分布族:F* 為樣本的概率分布族,F* = 樣本聯合分布。
決策空間
決策:對每個統計問題的具體回答,就稱為一個決策。例如,參數的點估計,每一個估計值就是一個決策。
決策空間:一個統計問題中,可能選取得全部決策組成的集合為決策空間,記為 A 。
損失函數
通常情況下,做任何決策以后,總會有某種后果, 由此可以帶來某種收益和損失.為了以數量化的方式描述這種收益和損失,為此需要引入損失函數。
常見的損失函數
1. 線性損失函數
2.平方損失函數
3.凸損失函數
4.多元二次損失函數
2.統計決策函數及其風險函數
給定統計決策問題的三要素后,在損失小的前提下,選擇一個好決策函數就成為核心問題。
統計決策函數
定義在樣本空間 X 上,取值於決策空間 內的函數 d(x),稱為統計決策函數,簡稱為決策函數。
注: 決策函數其實就是決策問題的一個“行動方案”。對於統計問題而言,決策函數為統計量。
由於損失函數 L 與決策函數 d(x) 有關,而決策函數是隨機變量,因而損失函數也為隨機變量。這樣損失函數與樣本X的取值有關,因而需要構造一個更好的指標來衡量決策函數的好壞,這就是風險函數。
風險函數
設樣本空間和分布族分別為 Χ 和 F* ,決策空間為 A ,損失函數為 L(θ , d) ,決策函數為 d (X), 則參數 θ 的決策函數 d (X) 引起的風險函數為 R (θ , d) 定義為:
R(θ, d) = Eθ ( L( θ , d(X) ) ) = Eθ ( L( θ , d(X1、.. 、Xn) ) )
注: 由定義可以看到,風險函數是決策d的平均損失。從定義可以看到,風險越小,決策越好,由此可以給出判斷決策函數優良性准則。
優良性准則
設 d1(X) 和 d2(X) 為統計決策問題的兩個決策函數,若其風險函數滿足不等式 R(θ, d1) ≤ R(θ, d2),且存在一些 θ 使得不等式嚴格成立,即 R(θ, d1) < R(θ, d2),則稱決策函數 d1 一致優於 d2 。如果等式成立,即R(θ, d1) = R(θ, d2),則二者等價。
一致最小風險決策函數
pass
注: 從上述定義可以看到,決策函數的優良性與損失函數有關,因而優良性會因損失函數而變化。
3. 貝葉斯估計
上面提出用風險函數衡量決策函數的好壞,但是由於風險函數為二元函數,很難進行全面比較。貝葉斯通過引入先驗分布,給出了整體比較的指標。
先驗分布與后驗分布
先驗信息
在抽取樣本之前,人們對所要估計的未知參數所了解的信息,通常稱為先驗信息。
在統計學中,先驗信息可以更好的幫助人們解決統計決策問題. 貝葉斯將此思想應用於統計決策中,形成了完整的貝葉斯統計方法。
先驗分布
對未知參數 θ 的先驗信息用一個分布形式 π(θ) 來表示,此分布 π(θ) 稱為未知參數 θ 的先驗分布。
后驗分布
在抽取樣本之前,人們對未知參數有個了解, 即先驗分布。抽取樣本之后,由於樣本中包含未知參數的信息,而這些關於未知參數新的信息可以幫助人們修正抽樣之前的先驗信息。
pass
加入新的信息以后, 對原有分布進行修正,由此可見,后驗分布綜合用運了先驗分布與樣本信息。
共軛先驗分布
為了使得后驗分布計算簡單,為此引入共軛先驗分布。
共軛分布族
設總體 X 的分布密度為 p (x | θ), F* 為 θ 的一個分布族,π(θ) 為 θ 的任意一個先驗分布,π(θ) ∈ F* , 若對樣本的任意觀測值 x , θ 的后驗分布 h(θ | x) ∈ F* ,則稱 F* 是關於分布密度 p (x | θ) 的共軛先驗分布族,簡稱共軛分布族。
注: 共軛分布族總是針對分布中的某個參數而言的。
后驗分布核
pass
可以看出,m(x) 不依賴於參數q,因而參數 θ 的后驗分布可以寫為如下等價形式:h(θ | x) ∝ q (x | θ) π(θ),則 q (x | θ) π(θ) 為后驗分布 h(θ | x) 的核,符號 ∝ 表示左右兩邊相差一個不依賴 θ 的常數因子。
共軛先驗分布族的構造方法
共軛先驗分布族共有兩種構造方法:
第一種方法:首先計算似然函數 q(x|θ),根據似然函數所含 θ 的因式情況,選取與似然函數具有相同核的分布作為先驗分布。
第二種方法: 設總體 X 的分布密度為 p(x|θ),統計量 T(X) = T(X1、.. 、Xn) 是參數 θ 的充分統計量,則有:
設 f (θ) 為任一固定的函數,滿足條件:
(1)f (θ) ≥ 0,θ ∈ Θ
(2)...
則 pass
貝葉斯風險
由前面序號2 的內容可知,給定損失函數以后,風險函數定義為 :
R(θ, d) = Eθ ( L( θ , d(X) ) ) = ∫X L( θ , d(X) ) q(x|θ) dx
此積分仍為 θ 的函數,在給定θ 的先驗分布 π(θ) 時,定義:
RB(d) = Eθ ( R(θ, d) ) = ∫Θ R(θ, d) π(θ) dθ
為決策函數 d 在給定先驗分布 π(θ) 下的貝葉斯風險,簡稱為d的貝葉斯風險。
貝葉斯風險的計算
當 X 與 θ 都是連續型隨機變量時,貝葉斯風險為:
RB(d) = Eθ ( R(θ, d) ) = ∫Θ R(θ, d) π(θ) dθ
= ∫Θ ∫X L( θ , d(X) ) q(x|θ) π(θ) dxdθ
= ∫Θ ∫X L( θ , d(X) ) h(θ|x) m(x) dxdθ
= ∫X m(x) { ∫Θ L( θ , d(X) ) h(θ|x) dθ } dx
當 X 與 θ 都是離散型隨機變量時,貝葉斯風險為:
RB(d) = Eθ ( R(θ, d) )
= ∑X m(x) { ∑θ L( θ , d(X) ) h(θ|x) }
注: 由上述計算可以看出,貝葉斯風險為計算兩次期望值得到,即:
RB(d) = Eθ ( E( L( θ , d(X) ) ) )
此時風險大小只與決策函數 d 有關,而不再依賴參數 θ, 因此以此來衡量決策函數優良性更合理。
貝葉斯估計
貝葉斯點估計
若總體 X 的分布函數 F(x,θ) 中參數 θ 為隨機變量,π(θ) 為 θ 的先驗分布,若決策函數類 D 中存在一個決策函數使得對決策函數類中的任一決策函數均有
RB(d*) = inf RB(d), d ∈ D,
則稱 d*(X)為參數 θ 的貝葉斯估計量。
注: 1、貝葉斯估計是使貝葉斯風險達到最小的決策函數;2、不同的先驗分布,對應不同的貝葉斯估計。
貝葉斯點估計的計算
1. 平方損失下的貝葉斯估計
設 θ 的先驗分布為 π(θ) 和損失函數為 L( θ , d ) =(θ - d)2 ,則 θ 的貝葉斯估計為
d*(x) = E (θ | X = x) = ∫Θ θ h(θ|x) dθ
其中 h (θ |x ) 為參數 θ 的后驗分布。
2. 加權平方損失下的貝葉斯估計
設 θ 的先驗分布為 π(θ) 和損失函數為 L( θ , d ) = λ(θ)(θ - d)2 ,則 θ 的貝葉斯估計為
d*(x) = pass
3. 二次損失函數下的貝葉斯估計
pass
4. 絕對值損失下的貝葉斯估計
pass
5. 線性損失下的貝葉斯估計
pass
后驗風險
設 d=d(x) 為決策函數類 D 中任一決策函數,損失函數為 L( θ , d(X) ) ,,則 L( θ , d(X) ) 對后驗分布 h(θ|x) 的數學期望稱為后驗風險,記為
R(d | x) = E ( L( θ , d(X) ) | x ) = pass
注: 如果存在一個決策函數,使得R(d** | x) = inf R(d | x) , d ∈ D,則稱此決策為后驗風險准則下的最優決策函數,或稱為貝葉斯(后驗型)決策函數。
如果決策函數使得貝葉斯風險最小, 此決策函數也使得后驗風險最小,反之,也成立。
貝葉斯估計的誤差
pass
貝葉斯區間估計
pass
4. minimax估計
略