數理統計知識總結

本文轉載自查看原文 2021-12-23 14:20 2112 數學/ Mathematics

數理統計知識總結

未經許可，嚴禁轉載。
Author：自倚修行
Date：2021 / 12 / 20

數理統計知識總結

零、概論

數理統計是研究數字規律的學科。前置知識包括：概率論，實變函數，線性代數等。本文旨在整理數理統計相關知識以供查備。

本文中：⭐ 表示重要；🌟 表示極為重要；

參考書目：應用數理統計-孫榮恆

0.1 參數估計和假設檢驗異同

數理統計的目的在於利用樣本數據對數據整體特征進行推斷。因此嘗試得到數據的分布就是十分自然的想法，分布一旦得知，整個統計過程都被掌握。然而，實際中的分布往往是不確定的，我們所已知的，通常是具體的樣本數據而非一個分布函數。因此，統計推斷一言以蔽之—— 局部推測整體。

一些情況下，我們只能預先知道分布的形式而不清楚其中的參數（這種預先知道的分布形式往往是對應統計過程被研究透徹的，如t分布、正態分布等），這要求使用參數估計方法對分布的參數進行估計，這種估計可以是估計一個定值（點估計），也可以是估計一個范圍（區間估計）。同時，判斷估計是否准確，是否一致（即數據量增加時估計是否會趨近真實參數）也是研究內容之一。

在另一些情況下，我們利用經驗或其他方法得到了分布的部分參數的猜測值（如正態分布的均值），但是並不確定是否正確，這要求在抽樣后根據樣本使用假設檢驗中的參數檢驗來判斷參數的初始估計是否准確，准確度是多少？

在剩下的情形中，我們對分布本身知之甚少，只能假設樣本來自於某種分布，想要知道假設是否正確，這要求使用假設檢驗中的非參數檢驗。值得一提的是，雖然分布函數有無窮種，但是非參數檢驗的方法本身適用於任何分布。檢驗是否成功取決於假設的分布是否巧到和真實分布相同。

0.2 頻率學派和貝葉斯學派

在估計參數的方法上，頻率學派和貝葉斯學派有很大的不同。

頻率學派認為參數是固定的、具有真實值的，在不斷的增加采樣數量后，我們對參數的估計將會越來越准確，區間估計所圈定的范圍會越來越小。

貝葉斯學派認為參數是整個參數空間上的隨機變量，即關心參數的分布函數。在已知先驗的情況下，每次采樣都會使得參數的分布函數發生變化，不過，有限次采樣的結果最終會使得貝葉斯回答了一個參數的分布函數，而非具體的值。

在一些問題上，如果實驗次數很大並且逐漸增加，頻率學派會給出參數的估計區間將越來越小，最終會收斂到一個具體的值，這正是“使用頻率代替概率”的基本思想，也是“頻率學派”的名稱來源。而貝葉斯學派可能會給出一個單峰的分布函數，並且隨着樣本數量的增加，峰值越來越高並接近於1。從這個角度看二者還是有共性的，不過，對於有限次數（即使很多次）的數據，二者的差別可能會很大。目前，由於頻率學派先於貝葉斯學派出現，主流的教材還是以頻率學派為主。在實際應用領域，兩者各有所長，頻率學派通常被用到難以相信主觀先驗評價或先驗分布難以確定的領域，諸如醫學、法律等，貝葉斯學派則在機器學習等領域大放異彩。

數理統計除了上述主要知識，還有諸如方差分析、線性回歸模型等內容，均不在本文范圍內。

一、基礎知識

1.1 基本概念

總體，個體，樣本，順序統計量，分位數，多元正態分布：
略

統計量：
記 $(\xi_1,\cdots,\xi_n)$ 是總體 $\xi$ 的樣本，$T(x_1,\cdots,x_n)$ 是 $\text{Borel}$ 可測函數。若 $T(\xi_1,\cdots,\xi_n)$ 不含未知參數，則稱其為一個統計量。

經驗分布函數：
經驗分布函數即為在已知總體 $\xi$ 的樣本 $(\xi_1,\cdots,\xi_n)$ 的情況下，根據經驗得到的 $\xi$ 的分布函數。很自然的，如果 $\xi_i$ 兩兩互異，那么我們認為任意 $\xi_i$ 的取值概率都是均等的（這就是“經驗”），因此經驗分布函數為

\[F_n(x) = \left\{\begin{aligned} 0,\qquad & x < \xi_{(1)} \\ \frac{k}{n},\qquad & \xi_{(k)} < x < \xi_{(k+1)} \\ 1,\qquad & x > \xi_{(n)} \end{aligned}\right. \\ \text{Here } \xi_{(i)} \text{ are the order statistic of } \xi_i. \]

由 $\text{Kolmogorov}$ 強大數定理和 $\text{Glivenko}$ 定理，經驗分布以概率1一致收斂到總體分布，這是統計推斷的理論基石。

1.2 抽樣分布定理 🌟

抽樣分布定理：
統計量的分布稱為抽樣分布，常用的抽樣分布定理有：

設 $\xi\sim N(\mu,\sigma^2)$，$(\xi_1,\cdots,\xi_n)$ 是總體 $\xi$ 的樣本

$\bar{\xi} \sim N(\mu,\frac{\sigma^2}{n})$

$\bar{\xi}$ 與 $S^2$ 獨立

$\frac{nS^2}{\sigma^2} \sim \chi^2(n-1)$

$T \equiv \frac{\bar{\xi}-\mu}{S/\sqrt{n-1}} \sim t(n-1)$

設 $\xi\sim N(\mu_1,\sigma_1^2)$，$(\xi_1,\cdots,\xi_m)$ 是總體 $\xi$ 的樣本； $\eta\sim N(\mu_2,\sigma_2^2)$，$(\eta_1,\cdots,\eta_n)$ 是總體 $\eta$ 的樣本

$F \equiv \frac{(n-1)mS_1^2}{(m-1)nS_2^2}\cdot\frac{\sigma_2^2}{\sigma_1^2} \sim F(m-1,n-1)$

$\text{when } \sigma_1=\sigma_2,\ T\equiv \frac{\bar{\xi}-\bar{\eta}-(\mu_1-\mu_2)}{\sqrt{mS_1^2+nS_2^2}}\sqrt{\frac{mn(m+n-2)}{m+n}} \sim t(m+n-2)$

1.3 常用分布 🌟

$\Gamma$ 分布 $\quad X \sim \Gamma(\alpha,\lambda)$ ：

\[f(x) = \frac{\lambda^\alpha x^{\alpha-1}}{\Gamma(\alpha)} \exp(-\lambda x),\ x>0 \\ \text{Here } \alpha>0,\lambda>0.\ \Gamma(x) \text{ is the Gamma function.} \]

$E(X) = \frac{\alpha}{\lambda},D(X) = \frac{\alpha}{\lambda^2}$

$\chi^2$ 分布 $\quad \chi^2 \sim \chi^2(N)=\Gamma(\frac{N}{2},\frac{1}{2})$ ：

\[\chi^2 = \sum\limits_{i=1}^N \xi_i^2, \text{ where } \xi_i \sim N(0,1)\text{ independent.} \\ f(x) = \frac{x^{\frac{N}{2}-1}e^{-\frac{x}{2}}}{2^{\frac{N}{2}}\Gamma(\frac{N}{2})},\ x>0 \]

$E(\chi^2)=N,D(\chi^2)=2N$

$t$ 分布 $\quad T \sim t(n)$ ：

\[T = \frac{\xi}{\sqrt{\eta/n}}, \text{ where } \xi \sim N(0,1),\eta\sim \chi^2(n)\text{ independent.} \\ f(x) = \frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\ \Gamma{(\frac{n}{2})}}\left( 1+\frac{x^2}{n} \right)^{-\frac{n+1}{2}},\ x \in \R \]

$E(T)=0,\ n>1;\ D(T)=\frac{n}{n-2},\ n>2$
$t$ 分布具有漸進($n\to+\infty$)正態性。

$F$ 分布 $\quad F \sim F(m,n)$ ：

\[F = \frac{\xi/m}{\eta/n}, \text{ where } \xi \sim \chi^2(m),\eta\sim \chi^2(n)\text{ independent.} \\ f(x) = \frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}m^{m/2}n^{n/2}x^{\frac{m}{2}-1}(n+mx)^{-\frac{m+n}{2}},x>0 \]

$E(F)=\frac{n}{n-2},\ n>2;\ D(F)=\frac{2 n^{2}(m+n-2)}{m(n-2)^{2}(n-4)},\ n>4$

二、參數估計

參數估計是利用樣本構建的統計量，估計分布參數的方法。

2.1 點估計 🌟

2.1.1 矩法

矩法是利用總體各階原點矩估計參數的方法。辛欽 $\text{(Wiener-khinchin)}$ 大數定律和 $\text{Kolmogorov}$ 強大數定理保證了樣本的原點矩依概率一致收斂到總體原點矩。所以：可以利用樣本原點矩代替總體原點矩來估計參數。具體而言：

若分布 $F(x;\theta_1,\cdots,\theta_t)$ 中 $(\theta_1,\cdots,\theta_t)$ 為待估參數，$(\xi_1,\cdots,\xi_n)$ 是總體 $\xi$ 的樣本，若 $E(\xi^t)$ 存在，則：

\[A_k\equiv\frac{1}{n}\sum\limits_{i=1}^{n}\xi_i^k = E(\xi^k), k=1,\cdots,t \]

解上述 $t$ 個僅含有 $(\theta_1,\cdots,\theta_t)$ 的方程，結果即為 $(\theta_1,\cdots,\theta_t)$ 的矩法點估計。

矩法優點在於不需要事先知道分布，只要求總體各階原點矩存在。缺點在於部分分布原點矩不存在，或參數要求為正/整數不能滿足。

2.1.2 極大似然法

極大似然法是選擇使得樣本出現的概率最高的參數作為參數的點估計。具體而言：

設 $p(x;\theta)$ 是概率分布函數，或離散概率，$(\xi_1,\cdots,\xi_n)$ 是總體 $\xi$ 的樣本。如下定義似然函數：

\[L(\theta) = \prod\limits_{i=1}^n p(\xi_i;\theta) \]

參數 $\theta$ 的極大似然點估計即為使得上述似然函數最大的 $\hat{\theta}$，通常：

\[\frac{\part \ln L(\theta)}{\partial \theta_k} = 0, k = 1,\cdots,t \]

解上述 $t$ 個僅含有 $(\theta_1,\cdots,\theta_t)$ 的方程，結果即為 $(\theta_1,\cdots,\theta_t)$ 的極大似然點估計。

極大似然法的優點在於不要求各階矩存在，缺點在於最后的似然方程可能會很難求解，甚至只能數值求解其近似值。

2.2 評價估計量

2.2.1 無偏性 ⭐

無偏性要求估計量的期望等於參數。

如果參數 $\theta$ 的估計量 $T(\xi_1,\cdots,\xi_n)$ 對於任意 $n$ 和 $\theta$ 有：

\[E_\theta(T) = \theta \]

則稱 $T(\xi_1,\cdots,\xi_n)$ 是參數 $\theta$ 的無偏估計。

退一步講，若僅有：

\[\lim\limits_{n\to \infty} E_\theta(T) - \theta = 0 \]

則稱 $T(\xi_1,\cdots,\xi_n)$ 是參數 $\theta$ 的漸進無偏估計。

例如：$S^2$ 是 $\sigma^2$ 的漸進無偏估計，$\widetilde{S^2} = \frac{n}{n-1}S^2$ 是 $\sigma^2$ 的無偏估計。

2.2.2 有效性

有效性要求無偏估計量的方差盡可能小。

兩個無偏估計 $\hat{\theta}_1,\hat{\theta}_2$，若 $D(\hat{\theta}_1)\le D(\hat{\theta}_2)$，則稱 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 更有效。

一個自然的問題是估計量的方差能有多小，下界可達到嗎？$\text{Rao-Cramer}$不等式回答了該問題。

我們稱達到方差下界的無偏估計量為有效估計量。

可估計函數 $g(\theta)$ 的有效估計量 $T$ 存在 $\iff\ \frac{\partial }{\partial \theta}\ln L(\theta)$ 可化為 $C(\theta)[T-g(\theta)]$，其中 $T$ 為 $g(\theta)$ 的無偏估計且 $C(\theta)$ 與樣本無關。

達到有效估計量時，方差為 $D(T)=\frac{[g'(\theta)]^2}{nI(\theta)}=\frac{g'(\theta)}{C(\theta)}$，其中 $I(\theta)=\frac{C(\theta)g'(\theta))}{n}$ 是 $\text{Fisher}$ 信息量。

可估計函數的有效估計量唯一且必是其唯一的極大似然估計量。

相對弱的，我們有一致最小方差無偏估計量 ($\text{UMVUE}$)，有效估計量顯然是 $\text{UMVUE}$，反之則不一定。對於 $\text{UMVUE}$，有：

$T$ 為 $g(\theta)$ 的 $\text{UMVUE} \iff E_\theta(TT_0)=0,\text{ Here }E(T_0)=0,D(T_0)<\infty$

2.2.3 一致性

一致性要求當樣本容量增大時，估計量要越發接近被估計參數的真實值。

$T \stackrel{P}{\longrightarrow} g(\theta) \iff $ $T$ 是 $g(\theta)$ 的弱一致估計量，也稱一致估計量。

$T \stackrel{a.s.}{\longrightarrow} g(\theta) \iff $ $T$ 是 $g(\theta)$ 的強一致估計量。

$T \stackrel{2}{\longrightarrow} g(\theta) \iff $ $T$ 是 $g(\theta)$ 的均方一致估計量。

2.2.4 充分性

充分性要求統計量所提供的信息充分多。

設 $F(x;\theta)$ 是分布函數，若 $F(x;T=t,\theta)$ 與 $\theta$ 無關，則稱統計量 $T$ 是 $\theta$ 的充分統計量。

由 $\text{Fisher-Neyman}$ 因子分解定理：

若聯合密度(質量)函數 $L(\theta) = \prod\limits_{i=1}^n f(\xi_i,\theta) = h(\xi_1,\cdots,\xi_n)g(T,\theta)$，則 $T$ 是 $\theta$ 的充分統計量。

2.2.5 完備性

略

2.3 區間估計 🌟

2.3.1 基本思想

在給定置信水平 $\alpha$ (通常很小)的情況下，利用樣本，估計出參數的存在區間 $(\theta_1,\theta_2)$ ，使得：

\[P(\theta_1<\theta<\theta_2) = 1-\alpha \]

其中，$1-\alpha$ 是置信度(通常接近1)。

其基本的過程通常為，利用無偏估計確定中心，根據置信度確定區間大小。經常需要使用本文1.2節所述的抽樣分布定理和1.3節的常用分布。特別的，由於區間分布的難度較高（需要知道與所求參數相關的分布函數），通常僅對正態分布、指數分布和0-1分布進行討論。

特別值得一提的是，由於統計量構造方法的差異，區間估計的結果可能不唯一。

2.3.2 單變量正態分布

求 $N(a,\sigma^2)$ 中參數 $a$ 的置信度為 $1-\alpha$ 的區間估計。

首先利用正態分布的期望的無偏估計量為 $\bar{\xi}$，假設出區間估計為 $a\in(\bar{\xi}-c,\bar{\xi}+c)$.

接着若 $\sigma^2$ 已知，構造完美服從標准正態分布的統計量 $U$：

\[U\equiv \frac{\bar{\xi}-a}{\sigma/\sqrt{n}} \sim N(0,1) \\ \]

再利用 $P(|\bar{\xi}-a|<c)=1-\alpha$ 即可求出 $c$.

但若 $\sigma^2$ 未知，利用 $\widetilde{S^2}$ 是 $\sigma^2$ 的無偏估計，或者之間使用抽樣分布定理，構造統計量 $T$：

\[T \equiv \frac{\bar{\xi}-\mu}{S/\sqrt{n-1}} \sim t(n-1) \]

再利用 $P(|\bar{\xi}-a|<c)=1-\alpha$ 即可求出 $c$.

求 $N(a,\sigma^2)$ 中參數 $\sigma^2$ 的置信度為 $1-\alpha$ 的區間估計。

無論均值是否已知，均可以采用如下方法：

考慮正態分布方差的無偏估計量 $\widetilde{S^2}$，因此 $\widetilde{S^2}/\sigma^2$ 應在1附近，假設出區間估計為 $\sigma^2\in(\frac{\widetilde{S^2}}{k_2},\frac{\widetilde{S^2}}{k_1})$.

接着利用抽樣分布定理，構造統計量 $\chi^2$：

\[\chi^2 \equiv \frac{(n-1)\widetilde{S^2}}{\sigma^2} \sim \chi^2(n-1) \]

再利用 $P(k_1 < \frac{\widetilde{S^2}}{\sigma^2} < k_2)= P(\frac{\widetilde{S^2}}{\sigma^2}<k_2)-P(\frac{\widetilde{S^2}}{\sigma^2} < k_1) =1-\alpha$，假設 $P(\frac{\widetilde{S^2}}{\sigma^2} < k_1)=\frac{\alpha}{2}$ 即可解出 $k_1,k_2$.

2.3.2 兩獨立正態分布

求 $\xi\sim N(a_1,\sigma_1^2),\eta\sim N(a_2,\sigma_2^2)$ 分別有 $n_1,n_2$ 個樣本下 $a_1-a_2$ 置信度為 $1-\alpha$ 的區間估計。

若 $\sigma_1,\sigma_2$ 已知：

\[\zeta \equiv \bar{\xi} - \bar{\eta} \sim N(a_1-a_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) \text{ 同單變量} \]

若僅已知 $\sigma_1=\sigma_2$ 不知具體值：

\[T\equiv \frac{\bar{\xi}-\bar{\eta}-(a_1-a_2)}{\sqrt{n_1S_1^2+n_2S_2^2}}\sqrt{\frac{n_1n_2(n_1+n_2-2)}{n_1+n_2}} \sim t(n_1+n_2-2) \]

若僅已知 $n_1=n_2$：

\[\zeta = \xi-\eta \sim N(a_1-a_2, \sigma_1^2+\sigma_2^2) \text{ 同單變量} \]

若僅已知 $n_1<n_2$：

\[\zeta_i = \xi_i-\sqrt{\frac{n_1}{n_2}}\eta_i+\frac{1}{\sqrt{n_1n_2}}\sum\limits_{i=1}^{n_1} \eta_i-\bar{\eta} \\ \zeta \sim N(a_1-a_2,\sigma_1^2+\frac{n_1}{n_2}\sigma_2^2) \]

求 $\xi\sim N(a_1,\sigma_1^2),\eta\sim N(a_2,\sigma_2^2)$ 分別有 $n_1,n_2$ 個樣本下 $\sigma_1^2/\sigma_2^2$ 置信度為 $1-\alpha$ 的區間估計。

無論期望是否已知，均可以使用如下方法：

\[F\equiv \frac{(n_1-1) \widetilde{S_1^2} }{\sigma_1^2(n_1-1)} \bigg/ \frac{(n_2-1) \widetilde{S_2^2}}{\sigma_2^2(n_2-1)} = \frac{\sigma_2^2 \widetilde{S_1^2}}{\sigma_1^2 \widetilde{S_2^2}} \sim F(n_1-1,n_2-1) \]

2.3.3 指數分布的區間估計

求 $\xi\sim \exp(\lambda) = \Gamma(1,\lambda)$ 中參數 $\lambda$ 的置信度為 $1-\alpha$ 的區間估計。

首先考慮 $\xi\sim \Gamma(1,\lambda)$，則有 $n\bar{\xi}\sim\Gamma(n,\lambda)$，進而：

\[f_{n\bar{\xi}}(x) = \frac{\lambda^n x^{n-1}}{\Gamma(n)} \exp(-\lambda x) \\ f_{\lambda n \bar{\xi}}(x)=\frac{1}{|\lambda|}f_{n\bar{\xi}}(\frac{x}{\lambda}) = \frac{x^{n-1}}{\Gamma(n)} \exp(-x) \\ f_{2\lambda n \bar{\xi}}(x)=\frac{1}{2}f_{\lambda n \bar{\xi}}(x/2) = \frac{2^{-n} x^{n-1}}{\Gamma(n)} \exp(-x/2) = \frac{2^{-n} x^{n-1}}{\Gamma(n)} \exp(-x/2) \]

所以有：$2\lambda n\bar{\xi}\sim\Gamma(n,\frac{1}{2})=\chi^2(n)$.

由 $\bar\xi$ 是 $\frac{1}{\lambda}$ 有效估計，因此，可利用 $2\lambda n\bar{\xi}\sim \chi^2(n)$ 得到參數 $\lambda$ 的區間估計。

2.3.4 0-1分布的參數估計

求 $\xi\sim B(1,p)$ 中參數 $p$ 的置信度為 $1-\alpha$ 的區間估計。

根據中心極限定理：

\[\frac{\bar\xi-E(\xi)}{\sqrt{D(\xi)/n}}=\frac{\bar\xi-p}{p(1-p)/n} \stackrel{L}{\longrightarrow} \zeta \sim N(0,1) \]

又因 $\bar\xi$ 是 $p$ 的無偏估計，自然利用統計量 $\zeta=\frac{\bar\xi-p}{p(1-p)/n}\sim N(0,1)$ 即可估計參數。

2.4 貝葉斯(Bayes)估計

貝葉斯估計給出的參數往往是一個分布。

將 $d=d(\xi_1,\cdots,\xi_n)$ 記為我們對待估參數 $\theta$ 的估計量。

將 $L=L(\theta,d)$ 即為選擇 $d$ 作為估計時的損失函數。

將 $R(\theta,d)=E_\theta(L(\theta,d))$ 稱為風險函數，作為采用 $d$ 決策估計參數時的平均風險。是對 $\xi$ 求期望。

自然的，我們的目的在於選擇適當的函數 $d$ 使得風險函數盡可能的小。所以最好的決策函數 $d_*$ 為：

\[R(\theta,d_*)=\min\limits_{d\in G} R(\theta,d),\text{ For all }\theta \in \Theta \]

此時稱 $d_*$ 為一致最小風險估計量。如果損失函數選擇的是 $L(\theta,d)=(\theta-d)^2$，則一致最小風險估計就是一致最小均方誤差估計。進一步地，若還有 $E_\theta(d)=\theta$，則一致最小風險估計就是一致最小方差無偏估計($\text{UMVUE}$)。

2.4.1 最大風險最小化估計

顧名思義地講，最大風險最小化估計就是要確保風險的最大值盡可能小，相對來說偏保守，特定領域需要此類估計。

我們稱決策函數 $d_*$ 是最大風險最小估計，若 $d_*$ 滿足：

\[\sup\limits_{\theta\in\Theta}\{ R(\theta,d_*) \} \le \sup\limits_{\theta\in\Theta}\{ R(\theta,d) \},\ \forall\ d \in G \]

根據具體的損失函數可以對風險上界進行計算，從而得到估計。注意：此時並沒有將參數看作隨機變量，因此最大風險最小化估計事實上並不屬於貝葉斯分析。

2.4.2 后驗分布

若已經有關於待估參數 $\theta$ 的部分信息（先驗分布），則可以通過求后驗分布得到參數的信息。

做如下符號約定(並僅在連續情形下討論，離散同理)：

總體的分布函數為 $F(x,\theta)$
先驗分布為 $\pi(y)$
容量為 $n$ 的樣本的概率密度函數為 $g(x_1,\cdots,x_n)$
參數 $\theta$ 的條件密度函數為 $h(y|x_1,\cdots,x_n)$，這顯然是后驗密度函數(因為知道了樣本后才可以算這個)
樣本的條件概率密度函數為 $f(x_1,\cdots,x_n|y)$

由貝葉斯公式：

\[g(X)h(y|X) = g(X) \cdot \frac{p(y,X)}{g(X)} = \pi(y)\cdot\frac{p(y,X)}{\pi(y)}=\pi(y)f(X|y) \]

其中：

\[g(X) = \int_\R f(X|y)\pi(y) dy = \int_\R f(X|y)\ dF_\theta(y) \]

所以有：

\[h(y|X) = \pi(y)f(X|y) \bigg/ \int_\R f(X|y)\ dF_\theta(y) \]

這即是已知樣本 $X$ 情況下參數的條件分布，稱為后驗分布。

2.4.3 貝葉斯估計 ⭐

如果不把參數看作隨機變量，那么風險函數 $R(\theta,d)=E_\theta(L(\theta,d))$ 所得到的就是諸如最大風險最小化估計。貝葉斯學派則將參數 $\theta$ 看作是隨機變量，自然的，可以求出貝葉斯風險函數，然后按照最大風險最小化估計之類的方法進行處理。

貝葉斯風險函數即為：

\[\begin{aligned} B(d) &= E[(L(\theta,d)] \\ &= E[E[L(\theta,d)|\theta]] \quad & \text{內部對樣本求期望外部對參數求期望} \\ &= E[E[L(\theta,d)|\xi]] \quad & \text{外部對樣本求期望內部對參數求期望} \\ \end{aligned} \]

可以看出，貝葉斯期望最終要對樣本和參數都求期望，而原來的風險函數僅對樣本求期望。

自然的，貝葉斯估計量 $d_*$ 就是將使貝葉斯風險函數最小的估計：

\[B(d_*) \le \min\limits_{d\in G} B(d) \]

貝葉斯風險函數的計算中涉及到條件期望，所以知道條件密度函數是必須的，這正是上一節中求后驗分布的原因。以下通過幾個例子，理解一下貝葉斯估計的原理。

若損失函數為 $L(\theta,d)=(\theta-d)^2$，且損失函數期望有限，則其貝葉斯估計量 $d_* = E(\theta|\xi_1,\cdots,\xi_n)$：

記 $\eta=(\xi_1,\cdots,\xi_n)$。由 $B(d_*)=E[E[(\theta-d)^2|\eta]]$ 對任意的 $d$ 都是最小，這幾乎處處等價於內部 $E[(\theta-d)^2|\eta]$ 最小。

\[E[(\theta-d)^2|\eta] = E(\theta^2|\eta)-2dE[\theta|\eta]+d^2 \]

對 $d$ 求導得 $d=E[\theta|\eta]$ 時取極小（對參數求期望）。

不過，要計算 $E[\theta|\eta]$ 並非易事，后驗分布 $h(y|\eta)$ 雖然已知，但積分 $\int_\R yh(y|\eta)dy$ 也很復雜。為此，特別定義了核函數用於簡化計算。

若 $g$ 與 $f$ 兩函數僅相差一個常數因子，則稱 $g$ 是 $f$ 的核函數，記作：$g \propto f$

利用核函數，$h(y|\eta) \propto \pi(y)f(\eta|y)$。再通過比較核函數的形式，可以得到隨機變量 $\theta|X$ 的概率密度函數，從而求得 $E[\theta|\eta]$。

不過，在不同問題中，損失函數往往會有所不同，但基本上都可以利用幾乎處處等價於內部 $E[(\theta-d)^2|\eta]$ 最小來求解。

2.4.4 先驗分布的選取

貝葉斯假設：沒有先驗信息時，選取均勻的先驗函數，或者之間將先驗分布函數設為常數。

共軛分布：
選取先驗分布 $\pi(y)$ 之后，若得到后驗分布 $h(y|X)$ 與 $\pi(y)$ 是同一類型的分布，則稱此先驗分布是總體分布（或抽樣分布或條件分布）的共軛分布。

常用的共軛分布（先驗共軛於總體）：

正態分布共軛於正態分布

$\text{Beta}$ 分布共軛於0-1分布

$\Gamma$ 分布共軛於泊松分布

逆 $\Gamma$ 分布共軛於指數分布

2.4.5 最大后驗估計 ⭐

類似於極大似然法，最大后驗估計選取使得后驗分布最大的參數作為估計值。

好處是只需要求解后驗分布即可，不需要進一步求期望。

重要結論：當先驗分布是貝葉斯假設(廣義或非廣義)時，最大后驗估計同極大似然估計相同。

2.4.6 貝葉斯區間估計

由於已經知道后驗分布，即參數作為一個隨機變量的分布已知，求其區間估計變得非常容易，此處從略。

三、假設檢驗

假設檢驗是統計推斷的一種手段，主要是利用樣本來判斷(檢驗)假設是否成立，並給出此判斷的可信程度。假設檢驗一般分為參數檢驗和非參數檢驗。

參數檢驗：已知分布，未知參數，假設參數的值后，利用樣本判斷假設是否成立。
非參數檢驗：未知分布，假設數據的分布后，利用樣本判斷假設是否成立。

一般的規范為設定原假設 $H_0$ 和備擇假設 $H_1$。然后利用樣本數據來接受或拒絕原假設。

假設檢驗中有兩類錯誤：

第一類錯誤為”棄真錯誤“，即原假設為真但錯判其為假，犯第一類錯誤的概率記為 $\alpha$
第二類錯誤為”取偽錯誤“，即原假設為假但錯判其為真，犯第二類錯誤的概率記為 $\beta$

顯然二者不可能同時無限小，通常也將 $\alpha$ 稱作顯著性水平，稱 $1-\beta$ 為檢驗的功效。

實際計算時的步驟如下：

預先指定好顯著性水平 $\alpha$，樣本容量等
根據原假設和備擇假設的形式分析拒絕域的形式
選擇適當的統計量，在滿足顯著性水平的條件下，求解拒絕域中的參數
判斷是否拒絕原假設（只能說拒絕或不拒絕，不能說接受）

3.1 參數檢驗

3.1.1 單正態總體均值

利用 $\bar{\xi}\sim N(a,\frac{\sigma^2}{n})$ 和抽樣分布定理即可解決，總結如下：

3.1.2 非正態總體均值

在樣本量很大(至少大於50)時，若總體期望方差都存在有限，由中心極限定理：

\[\frac{\bar\xi-E(\xi)}{\sqrt{D(\xi)/n}}=\frac{\bar\xi-p}{p(1-p)/n} \stackrel{L}{\longrightarrow} \zeta \sim N(0,1) \]

近似作為正態總體處理，同上一節。

3.1.3 單正態總體方差

利用抽樣分布定理即可解決，總結如下：

3.1.4 雙正態總體均值和方差

統計量構造與“2.3.2 區間估計”完全相同，從略，僅給結論。

3.1.5 廣義極大似然比檢驗

暫略

3.1.6 極大似然比檢驗

暫略

3.2 非參數檢驗

非參數檢驗用來判斷樣本是否來自於假設的分布，一般可用偏度、峰度檢驗法檢驗正態分布，皮爾遜 $\chi^2$ 檢驗法則通用。

3.2.1 偏度、峰度檢驗

偏度：標准化隨機變量 $\frac{\xi-E(\xi)}{\sqrt{D(\xi)}}$ 的三階原點矩，用來描述密度函數的偏斜程度。
峰度：標准化隨機變量 $\frac{\xi-E(\xi)}{\sqrt{D(\xi)}}$ 的四階原點矩，用來描述密度函數的陡緩程度。

此檢驗方法主要利用引理：

若 $\xi$ 服從正態，則當樣本量足夠大(>100)，其偏度 $g_1$ 和峰度 $g_2$ 將滿足：

\[g_1 \sim N\left( 0,\frac{6(n-2)}{(n+1)(n+3)} \right) \\ g_2 \sim N\left( \frac{3n-3}{n+1},\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)} \right) \]

因此，只需要檢驗樣本的偏度和峰度是否滿足上述分布即可，注意，拒絕域應當是兩者的並集，且顯著性水平應該各自為 $\frac{\alpha}{2}$。

3.2.2 皮爾遜 $\chi^2$ 檢驗

檢驗 $H_0: F(x)=F_0(x)$

本質在於對比兩分布的概率密度函數是否一致，基於皮爾遜在1900年證明的如下定理：

定義 $\chi^2 = \sum\limits_{i=1}^m \frac{(v_i-np_i)^2}{np_i}$

其中，將樣本數據按直方圖橫軸划分的相同思想划分為 $m$ 組，其中，每一組的樣本數量是 $v_i$。然后，計算 $F_0(x)$ 的概率密度函數在不同組之間的概率 $p_i$，乘上總樣本量 $n$ 即為理論上的樣本頻次 $np_i$。所以，如果原假設成立，那么統計量 $\chi^2$ 應該是接近 $0$，即拒絕域為 $\chi^2 > C$。1900年皮爾遜證明了：

無論 $F_0(x)$ 是何種分布，$\chi^2 \stackrel{L}{\longrightarrow} \eta \sim \chi^2(m-1)$。其中 $L$ 指依分布收斂，$m$ 指分組數。

根據上述定理設計的統計量，容易得到各顯著性水平下的拒絕域表達。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 高等數理統計知識點數理統計知識點歸納數學基礎（2）~ 數理統計基礎知識數據挖掘中所需的概率論與數理統計知識 MATLAB中的概率論與數理統計概率論與數理統計，筆記宋浩《概率論與數理統計》筆記---概率論總結【數理統計基礎】 02 - 統計量和三大分布概率論與數理統計習題題目及答案（總）數理統計初步---從協方差到PCA算法步驟詳解