数理统计知识总结
未经许可,严禁转载。
Author:自倚修行
Date:2021 / 12 / 20
零、概论
数理统计是研究数字规律的学科。前置知识包括:概率论,实变函数,线性代数等。本文旨在整理数理统计相关知识以供查备。
本文中:⭐ 表示重要;🌟 表示极为重要;
参考书目:应用数理统计-孙荣恒
0.1 参数估计和假设检验异同
数理统计的目的在于利用样本数据对数据整体特征进行推断。因此尝试得到数据的分布就是十分自然的想法,分布一旦得知,整个统计过程都被掌握。然而,实际中的分布往往是不确定的,我们所已知的,通常是具体的样本数据而非一个分布函数。因此,统计推断一言以蔽之—— 局部推测整体。
一些情况下,我们只能预先知道分布的形式而不清楚其中的参数(这种预先知道的分布形式往往是对应统计过程被研究透彻的,如t分布、正态分布等),这要求使用参数估计方法对分布的参数进行估计,这种估计可以是估计一个定值(点估计),也可以是估计一个范围(区间估计)。同时,判断估计是否准确,是否一致(即数据量增加时估计是否会趋近真实参数)也是研究内容之一。
在另一些情况下,我们利用经验或其他方法得到了分布的部分参数的猜测值(如正态分布的均值),但是并不确定是否正确,这要求在抽样后根据样本使用假设检验中的参数检验来判断参数的初始估计是否准确,准确度是多少?
在剩下的情形中,我们对分布本身知之甚少,只能假设样本来自于某种分布,想要知道假设是否正确,这要求使用假设检验中的非参数检验。值得一提的是,虽然分布函数有无穷种,但是非参数检验的方法本身适用于任何分布。检验是否成功取决于假设的分布是否巧到和真实分布相同。
0.2 频率学派和贝叶斯学派
在估计参数的方法上,频率学派和贝叶斯学派有很大的不同。
频率学派认为参数是固定的、具有真实值的,在不断的增加采样数量后,我们对参数的估计将会越来越准确,区间估计所圈定的范围会越来越小。
贝叶斯学派认为参数是整个参数空间上的随机变量,即关心参数的分布函数。在已知先验的情况下,每次采样都会使得参数的分布函数发生变化,不过,有限次采样的结果最终会使得贝叶斯回答了一个参数的分布函数,而非具体的值。
在一些问题上,如果实验次数很大并且逐渐增加,频率学派会给出参数的估计区间将越来越小,最终会收敛到一个具体的值,这正是“使用频率代替概率”的基本思想,也是“频率学派”的名称来源。而贝叶斯学派可能会给出一个单峰的分布函数,并且随着样本数量的增加,峰值越来越高并接近于1。从这个角度看二者还是有共性的,不过,对于有限次数(即使很多次)的数据,二者的差别可能会很大。目前,由于频率学派先于贝叶斯学派出现,主流的教材还是以频率学派为主。在实际应用领域,两者各有所长,频率学派通常被用到难以相信主观先验评价或先验分布难以确定的领域,诸如医学、法律等,贝叶斯学派则在机器学习等领域大放异彩。
数理统计除了上述主要知识,还有诸如方差分析、线性回归模型等内容,均不在本文范围内。
一、基础知识
1.1 基本概念
总体,个体,样本,顺序统计量,分位数,多元正态分布:
略
统计量:
记 \((\xi_1,\cdots,\xi_n)\) 是总体 \(\xi\) 的样本,\(T(x_1,\cdots,x_n)\) 是 \(\text{Borel}\) 可测函数。若 \(T(\xi_1,\cdots,\xi_n)\) 不含未知参数,则称其为一个统计量。
经验分布函数:
经验分布函数即为在已知总体 \(\xi\) 的样本 \((\xi_1,\cdots,\xi_n)\) 的情况下,根据经验得到的 \(\xi\) 的分布函数。很自然的,如果 \(\xi_i\) 两两互异,那么我们认为任意 \(\xi_i\) 的取值概率都是均等的(这就是“经验”),因此经验分布函数为\[F_n(x) = \left\{\begin{aligned} 0,\qquad & x < \xi_{(1)} \\ \frac{k}{n},\qquad & \xi_{(k)} < x < \xi_{(k+1)} \\ 1,\qquad & x > \xi_{(n)} \end{aligned}\right. \\ \text{Here } \xi_{(i)} \text{ are the order statistic of } \xi_i. \]由 \(\text{Kolmogorov}\) 强大数定理和 \(\text{Glivenko}\) 定理,经验分布以概率1一致收敛到总体分布,这是统计推断的理论基石。
1.2 抽样分布定理 🌟
抽样分布定理:
统计量的分布称为抽样分布,常用的抽样分布定理有:设 \(\xi\sim N(\mu,\sigma^2)\),\((\xi_1,\cdots,\xi_n)\) 是总体 \(\xi\) 的样本
- \(\bar{\xi} \sim N(\mu,\frac{\sigma^2}{n})\)
- \(\bar{\xi}\) 与 \(S^2\) 独立
- \(\frac{nS^2}{\sigma^2} \sim \chi^2(n-1)\)
- \(T \equiv \frac{\bar{\xi}-\mu}{S/\sqrt{n-1}} \sim t(n-1)\)
设 \(\xi\sim N(\mu_1,\sigma_1^2)\),\((\xi_1,\cdots,\xi_m)\) 是总体 \(\xi\) 的样本; \(\eta\sim N(\mu_2,\sigma_2^2)\),\((\eta_1,\cdots,\eta_n)\) 是总体 \(\eta\) 的样本
- \(F \equiv \frac{(n-1)mS_1^2}{(m-1)nS_2^2}\cdot\frac{\sigma_2^2}{\sigma_1^2} \sim F(m-1,n-1)\)
- \(\text{when } \sigma_1=\sigma_2,\ T\equiv \frac{\bar{\xi}-\bar{\eta}-(\mu_1-\mu_2)}{\sqrt{mS_1^2+nS_2^2}}\sqrt{\frac{mn(m+n-2)}{m+n}} \sim t(m+n-2)\)
1.3 常用分布 🌟
\(\Gamma\) 分布 \(\quad X \sim \Gamma(\alpha,\lambda)\) :
\[f(x) = \frac{\lambda^\alpha x^{\alpha-1}}{\Gamma(\alpha)} \exp(-\lambda x),\ x>0 \\ \text{Here } \alpha>0,\lambda>0.\ \Gamma(x) \text{ is the Gamma function.} \]\(E(X) = \frac{\alpha}{\lambda},D(X) = \frac{\alpha}{\lambda^2}\)
\(\chi^2\) 分布 \(\quad \chi^2 \sim \chi^2(N)=\Gamma(\frac{N}{2},\frac{1}{2})\) :
\[\chi^2 = \sum\limits_{i=1}^N \xi_i^2, \text{ where } \xi_i \sim N(0,1)\text{ independent.} \\ f(x) = \frac{x^{\frac{N}{2}-1}e^{-\frac{x}{2}}}{2^{\frac{N}{2}}\Gamma(\frac{N}{2})},\ x>0 \]\(E(\chi^2)=N,D(\chi^2)=2N\)
\(t\) 分布 \(\quad T \sim t(n)\) :
\[T = \frac{\xi}{\sqrt{\eta/n}}, \text{ where } \xi \sim N(0,1),\eta\sim \chi^2(n)\text{ independent.} \\ f(x) = \frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\ \Gamma{(\frac{n}{2})}}\left( 1+\frac{x^2}{n} \right)^{-\frac{n+1}{2}},\ x \in \R \]\(E(T)=0,\ n>1;\ D(T)=\frac{n}{n-2},\ n>2\)
\(t\) 分布具有渐进(\(n\to+\infty\))正态性。
\(F\) 分布 \(\quad F \sim F(m,n)\) :
\[F = \frac{\xi/m}{\eta/n}, \text{ where } \xi \sim \chi^2(m),\eta\sim \chi^2(n)\text{ independent.} \\ f(x) = \frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}m^{m/2}n^{n/2}x^{\frac{m}{2}-1}(n+mx)^{-\frac{m+n}{2}},x>0 \]\(E(F)=\frac{n}{n-2},\ n>2;\ D(F)=\frac{2 n^{2}(m+n-2)}{m(n-2)^{2}(n-4)},\ n>4\)
二、参数估计
参数估计是利用样本构建的统计量,估计分布参数的方法。
2.1 点估计 🌟
2.1.1 矩法
矩法是利用总体各阶原点矩估计参数的方法。辛钦 \(\text{(Wiener-khinchin)}\) 大数定律和 \(\text{Kolmogorov}\) 强大数定理保证了样本的原点矩依概率一致收敛到总体原点矩。所以:可以利用样本原点矩代替总体原点矩来估计参数。具体而言:
若分布 \(F(x;\theta_1,\cdots,\theta_t)\) 中 \((\theta_1,\cdots,\theta_t)\) 为待估参数,\((\xi_1,\cdots,\xi_n)\) 是总体 \(\xi\) 的样本,若 \(E(\xi^t)\) 存在,则:
\[A_k\equiv\frac{1}{n}\sum\limits_{i=1}^{n}\xi_i^k = E(\xi^k), k=1,\cdots,t \]解上述 \(t\) 个仅含有 \((\theta_1,\cdots,\theta_t)\) 的方程,结果即为 \((\theta_1,\cdots,\theta_t)\) 的矩法点估计。
矩法优点在于不需要事先知道分布,只要求总体各阶原点矩存在。缺点在于部分分布原点矩不存在,或参数要求为正/整数不能满足。
2.1.2 极大似然法
极大似然法是选择使得样本出现的概率最高的参数作为参数的点估计。具体而言:
设 \(p(x;\theta)\) 是概率分布函数,或离散概率,\((\xi_1,\cdots,\xi_n)\) 是总体 \(\xi\) 的样本。如下定义似然函数:
\[L(\theta) = \prod\limits_{i=1}^n p(\xi_i;\theta) \]参数 \(\theta\) 的极大似然点估计即为使得上述似然函数最大的 \(\hat{\theta}\),通常:
\[\frac{\part \ln L(\theta)}{\partial \theta_k} = 0, k = 1,\cdots,t \]解上述 \(t\) 个仅含有 \((\theta_1,\cdots,\theta_t)\) 的方程,结果即为 \((\theta_1,\cdots,\theta_t)\) 的极大似然点估计。
极大似然法的优点在于不要求各阶矩存在,缺点在于最后的似然方程可能会很难求解,甚至只能数值求解其近似值。
2.2 评价估计量
2.2.1 无偏性 ⭐
无偏性要求估计量的期望等于参数。
如果参数 \(\theta\) 的估计量 \(T(\xi_1,\cdots,\xi_n)\) 对于任意 \(n\) 和 \(\theta\) 有:
\[E_\theta(T) = \theta \]则称 \(T(\xi_1,\cdots,\xi_n)\) 是参数 \(\theta\) 的无偏估计。
退一步讲,若仅有:
\[\lim\limits_{n\to \infty} E_\theta(T) - \theta = 0 \]则称 \(T(\xi_1,\cdots,\xi_n)\) 是参数 \(\theta\) 的渐进无偏估计。
例如:\(S^2\) 是 \(\sigma^2\) 的渐进无偏估计,\(\widetilde{S^2} = \frac{n}{n-1}S^2\) 是 \(\sigma^2\) 的无偏估计。
2.2.2 有效性
有效性要求无偏估计量的方差尽可能小。
两个无偏估计 \(\hat{\theta}_1,\hat{\theta}_2\),若 \(D(\hat{\theta}_1)\le D(\hat{\theta}_2)\),则称 \(\hat{\theta}_1\) 比 \(\hat{\theta}_2\) 更有效。
一个自然的问题是估计量的方差能有多小,下界可达到吗?\(\text{Rao-Cramer}\)不等式回答了该问题。
我们称达到方差下界的无偏估计量为有效估计量。
- 可估计函数 \(g(\theta)\) 的有效估计量 \(T\) 存在 \(\iff\ \frac{\partial }{\partial \theta}\ln L(\theta)\) 可化为 \(C(\theta)[T-g(\theta)]\),其中 \(T\) 为 \(g(\theta)\) 的无偏估计且 \(C(\theta)\) 与样本无关。
- 达到有效估计量时,方差为 \(D(T)=\frac{[g'(\theta)]^2}{nI(\theta)}=\frac{g'(\theta)}{C(\theta)}\),其中 \(I(\theta)=\frac{C(\theta)g'(\theta))}{n}\) 是 \(\text{Fisher}\) 信息量。
- 可估计函数的有效估计量唯一且必是其唯一的极大似然估计量。
相对弱的,我们有一致最小方差无偏估计量 (\(\text{UMVUE}\)),有效估计量显然是 \(\text{UMVUE}\),反之则不一定。对于 \(\text{UMVUE}\),有:
\(T\) 为 \(g(\theta)\) 的 \(\text{UMVUE} \iff E_\theta(TT_0)=0,\text{ Here }E(T_0)=0,D(T_0)<\infty\)
2.2.3 一致性
一致性要求当样本容量增大时,估计量要越发接近被估计参数的真实值。
$T \stackrel{P}{\longrightarrow} g(\theta) \iff $ \(T\) 是 \(g(\theta)\) 的弱一致估计量,也称一致估计量。
$T \stackrel{a.s.}{\longrightarrow} g(\theta) \iff $ \(T\) 是 \(g(\theta)\) 的强一致估计量。
$T \stackrel{2}{\longrightarrow} g(\theta) \iff $ \(T\) 是 \(g(\theta)\) 的均方一致估计量。
2.2.4 充分性
充分性要求统计量所提供的信息充分多。
设 \(F(x;\theta)\) 是分布函数,若 \(F(x;T=t,\theta)\) 与 \(\theta\) 无关,则称统计量 \(T\) 是 \(\theta\) 的充分统计量。
由 \(\text{Fisher-Neyman}\) 因子分解定理:
若联合密度(质量)函数 \(L(\theta) = \prod\limits_{i=1}^n f(\xi_i,\theta) = h(\xi_1,\cdots,\xi_n)g(T,\theta)\),则 \(T\) 是 \(\theta\) 的充分统计量。
2.2.5 完备性
略
2.3 区间估计 🌟
2.3.1 基本思想
在给定置信水平 \(\alpha\) (通常很小)的情况下,利用样本,估计出参数的存在区间 \((\theta_1,\theta_2)\) ,使得:
其中,\(1-\alpha\) 是置信度(通常接近1)。
其基本的过程通常为,利用无偏估计确定中心,根据置信度确定区间大小。经常需要使用本文1.2节所述的抽样分布定理和1.3节的常用分布。特别的,由于区间分布的难度较高(需要知道与所求参数相关的分布函数),通常仅对正态分布、指数分布和0-1分布进行讨论。
特别值得一提的是,由于统计量构造方法的差异,区间估计的结果可能不唯一。
2.3.2 单变量正态分布
求 \(N(a,\sigma^2)\) 中参数 \(a\) 的置信度为 \(1-\alpha\) 的区间估计。
首先利用正态分布的期望的无偏估计量为 \(\bar{\xi}\),假设出区间估计为 \(a\in(\bar{\xi}-c,\bar{\xi}+c)\).
接着若 \(\sigma^2\) 已知,构造完美服从标准正态分布的统计量 \(U\):
\[U\equiv \frac{\bar{\xi}-a}{\sigma/\sqrt{n}} \sim N(0,1) \\ \]再利用 \(P(|\bar{\xi}-a|<c)=1-\alpha\) 即可求出 \(c\).
但若 \(\sigma^2\) 未知,利用 \(\widetilde{S^2}\) 是 \(\sigma^2\) 的无偏估计,或者之间使用抽样分布定理,构造统计量 \(T\):
\[T \equiv \frac{\bar{\xi}-\mu}{S/\sqrt{n-1}} \sim t(n-1) \]再利用 \(P(|\bar{\xi}-a|<c)=1-\alpha\) 即可求出 \(c\).
求 \(N(a,\sigma^2)\) 中参数 \(\sigma^2\) 的置信度为 \(1-\alpha\) 的区间估计。
无论均值是否已知,均可以采用如下方法:
考虑正态分布方差的无偏估计量 \(\widetilde{S^2}\),因此 \(\widetilde{S^2}/\sigma^2\) 应在1附近,假设出区间估计为 \(\sigma^2\in(\frac{\widetilde{S^2}}{k_2},\frac{\widetilde{S^2}}{k_1})\).
接着利用抽样分布定理,构造统计量 \(\chi^2\):
\[\chi^2 \equiv \frac{(n-1)\widetilde{S^2}}{\sigma^2} \sim \chi^2(n-1) \]再利用 \(P(k_1 < \frac{\widetilde{S^2}}{\sigma^2} < k_2)= P(\frac{\widetilde{S^2}}{\sigma^2}<k_2)-P(\frac{\widetilde{S^2}}{\sigma^2} < k_1) =1-\alpha\),假设 \(P(\frac{\widetilde{S^2}}{\sigma^2} < k_1)=\frac{\alpha}{2}\) 即可解出 \(k_1,k_2\).
2.3.2 两独立正态分布
求 \(\xi\sim N(a_1,\sigma_1^2),\eta\sim N(a_2,\sigma_2^2)\) 分别有 \(n_1,n_2\) 个样本下 \(a_1-a_2\) 置信度为 \(1-\alpha\) 的区间估计。
若 \(\sigma_1,\sigma_2\) 已知:
\[\zeta \equiv \bar{\xi} - \bar{\eta} \sim N(a_1-a_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}) \text{ 同单变量} \]若仅已知 \(\sigma_1=\sigma_2\) 不知具体值:
\[T\equiv \frac{\bar{\xi}-\bar{\eta}-(a_1-a_2)}{\sqrt{n_1S_1^2+n_2S_2^2}}\sqrt{\frac{n_1n_2(n_1+n_2-2)}{n_1+n_2}} \sim t(n_1+n_2-2) \]若仅已知 \(n_1=n_2\):
\[\zeta = \xi-\eta \sim N(a_1-a_2, \sigma_1^2+\sigma_2^2) \text{ 同单变量} \]若仅已知 \(n_1<n_2\):
\[\zeta_i = \xi_i-\sqrt{\frac{n_1}{n_2}}\eta_i+\frac{1}{\sqrt{n_1n_2}}\sum\limits_{i=1}^{n_1} \eta_i-\bar{\eta} \\ \zeta \sim N(a_1-a_2,\sigma_1^2+\frac{n_1}{n_2}\sigma_2^2) \]
求 \(\xi\sim N(a_1,\sigma_1^2),\eta\sim N(a_2,\sigma_2^2)\) 分别有 \(n_1,n_2\) 个样本下 \(\sigma_1^2/\sigma_2^2\) 置信度为 \(1-\alpha\) 的区间估计。
无论期望是否已知,均可以使用如下方法:
\[F\equiv \frac{(n_1-1) \widetilde{S_1^2} }{\sigma_1^2(n_1-1)} \bigg/ \frac{(n_2-1) \widetilde{S_2^2}}{\sigma_2^2(n_2-1)} = \frac{\sigma_2^2 \widetilde{S_1^2}}{\sigma_1^2 \widetilde{S_2^2}} \sim F(n_1-1,n_2-1) \]
2.3.3 指数分布的区间估计
求 \(\xi\sim \exp(\lambda) = \Gamma(1,\lambda)\) 中参数 \(\lambda\) 的置信度为 \(1-\alpha\) 的区间估计。
首先考虑 \(\xi\sim \Gamma(1,\lambda)\),则有 \(n\bar{\xi}\sim\Gamma(n,\lambda)\),进而:
所以有:\(2\lambda n\bar{\xi}\sim\Gamma(n,\frac{1}{2})=\chi^2(n)\).
由 \(\bar\xi\) 是 \(\frac{1}{\lambda}\) 有效估计,因此,可利用 \(2\lambda n\bar{\xi}\sim \chi^2(n)\) 得到参数 \(\lambda\) 的区间估计。
2.3.4 0-1分布的参数估计
求 \(\xi\sim B(1,p)\) 中参数 \(p\) 的置信度为 \(1-\alpha\) 的区间估计。
根据中心极限定理:
又因 \(\bar\xi\) 是 \(p\) 的无偏估计,自然利用统计量 \(\zeta=\frac{\bar\xi-p}{p(1-p)/n}\sim N(0,1)\) 即可估计参数。
2.4 贝叶斯(Bayes)估计
贝叶斯估计给出的参数往往是一个分布。
将 \(d=d(\xi_1,\cdots,\xi_n)\) 记为我们对待估参数 \(\theta\) 的估计量。
将 \(L=L(\theta,d)\) 即为选择 \(d\) 作为估计时的损失函数。
将 \(R(\theta,d)=E_\theta(L(\theta,d))\) 称为风险函数,作为采用 \(d\) 决策估计参数时的平均风险。是对 \(\xi\) 求期望。
自然的,我们的目的在于选择适当的函数 \(d\) 使得风险函数尽可能的小。所以最好的决策函数 \(d_*\) 为:
此时称 \(d_*\) 为一致最小风险估计量。如果损失函数选择的是 \(L(\theta,d)=(\theta-d)^2\),则一致最小风险估计就是一致最小均方误差估计。进一步地,若还有 \(E_\theta(d)=\theta\),则一致最小风险估计就是一致最小方差无偏估计(\(\text{UMVUE}\))。
2.4.1 最大风险最小化估计
顾名思义地讲,最大风险最小化估计就是要确保风险的最大值尽可能小,相对来说偏保守,特定领域需要此类估计。
我们称决策函数 \(d_*\) 是最大风险最小估计,若 \(d_*\) 满足:
根据具体的损失函数可以对风险上界进行计算,从而得到估计。注意:此时并没有将参数看作随机变量,因此最大风险最小化估计事实上并不属于贝叶斯分析。
2.4.2 后验分布
若已经有关于待估参数 \(\theta\) 的部分信息(先验分布),则可以通过求后验分布得到参数的信息。
做如下符号约定(并仅在连续情形下讨论,离散同理):
总体的分布函数为 \(F(x,\theta)\)
先验分布为 \(\pi(y)\)
容量为 \(n\) 的样本的概率密度函数为 \(g(x_1,\cdots,x_n)\)
参数 \(\theta\) 的条件密度函数为 \(h(y|x_1,\cdots,x_n)\),这显然是后验密度函数(因为知道了样本后才可以算这个)
样本的条件概率密度函数为 \(f(x_1,\cdots,x_n|y)\)
由贝叶斯公式:
其中:
所以有:
这即是已知样本 \(X\) 情况下参数的条件分布,称为后验分布。
2.4.3 贝叶斯估计 ⭐
如果不把参数看作随机变量,那么风险函数 \(R(\theta,d)=E_\theta(L(\theta,d))\) 所得到的就是诸如最大风险最小化估计。贝叶斯学派则将参数 \(\theta\) 看作是随机变量,自然的,可以求出贝叶斯风险函数,然后按照最大风险最小化估计之类的方法进行处理。
贝叶斯风险函数即为:
可以看出,贝叶斯期望最终要对样本和参数都求期望,而原来的风险函数仅对样本求期望。
自然的,贝叶斯估计量 \(d_*\) 就是将使贝叶斯风险函数最小的估计:
贝叶斯风险函数的计算中涉及到条件期望,所以知道条件密度函数是必须的,这正是上一节中求后验分布的原因。以下通过几个例子,理解一下贝叶斯估计的原理。
若损失函数为 \(L(\theta,d)=(\theta-d)^2\),且损失函数期望有限,则其贝叶斯估计量 \(d_* = E(\theta|\xi_1,\cdots,\xi_n)\):
记 \(\eta=(\xi_1,\cdots,\xi_n)\)。由 \(B(d_*)=E[E[(\theta-d)^2|\eta]]\) 对任意的 \(d\) 都是最小,这几乎处处等价于内部 \(E[(\theta-d)^2|\eta]\) 最小。
对 \(d\) 求导得 \(d=E[\theta|\eta]\) 时取极小(对参数求期望)。
不过,要计算 \(E[\theta|\eta]\) 并非易事,后验分布 \(h(y|\eta)\) 虽然已知,但积分 \(\int_\R yh(y|\eta)dy\) 也很复杂。为此,特别定义了核函数用于简化计算。
若 \(g\) 与 \(f\) 两函数仅相差一个常数因子,则称 \(g\) 是 \(f\) 的核函数,记作:\(g \propto f\)
利用核函数,\(h(y|\eta) \propto \pi(y)f(\eta|y)\)。再通过比较核函数的形式,可以得到随机变量 \(\theta|X\) 的概率密度函数,从而求得 \(E[\theta|\eta]\)。
不过,在不同问题中,损失函数往往会有所不同,但基本上都可以利用几乎处处等价于内部 \(E[(\theta-d)^2|\eta]\) 最小来求解。
2.4.4 先验分布的选取
贝叶斯假设:没有先验信息时,选取均匀的先验函数,或者之间将先验分布函数设为常数。
共轭分布:
选取先验分布 \(\pi(y)\) 之后,若得到后验分布 \(h(y|X)\) 与 \(\pi(y)\) 是同一类型的分布,则称此先验分布是总体分布(或抽样分布或条件分布)的共轭分布。
常用的共轭分布(先验共轭于总体):
- 正态分布共轭于正态分布
- \(\text{Beta}\) 分布共轭于0-1分布
- \(\Gamma\) 分布共轭于泊松分布
- 逆 \(\Gamma\) 分布共轭于指数分布
2.4.5 最大后验估计 ⭐
类似于极大似然法,最大后验估计选取使得后验分布最大的参数作为估计值。
好处是只需要求解后验分布即可,不需要进一步求期望。
重要结论:当先验分布是贝叶斯假设(广义或非广义)时,最大后验估计同极大似然估计相同。
2.4.6 贝叶斯区间估计
由于已经知道后验分布,即参数作为一个随机变量的分布已知,求其区间估计变得非常容易,此处从略。
三、假设检验
假设检验是统计推断的一种手段,主要是利用样本来判断(检验)假设是否成立,并给出此判断的可信程度。假设检验一般分为参数检验和非参数检验。
参数检验:已知分布,未知参数,假设参数的值后,利用样本判断假设是否成立。
非参数检验:未知分布,假设数据的分布后,利用样本判断假设是否成立。
一般的规范为设定原假设 \(H_0\) 和备择假设 \(H_1\)。然后利用样本数据来 接受 或 拒绝 原假设。
假设检验中有两类错误:
第一类错误为”弃真错误“,即原假设为真但错判其为假,犯第一类错误的概率记为 \(\alpha\)
第二类错误为”取伪错误“,即原假设为假但错判其为真,犯第二类错误的概率记为 \(\beta\)
显然二者不可能同时无限小,通常也将 \(\alpha\) 称作显著性水平,称 \(1-\beta\) 为检验的功效。
实际计算时的步骤如下:
- 预先指定好显著性水平 \(\alpha\),样本容量等
- 根据原假设和备择假设的形式分析拒绝域的形式
- 选择适当的统计量,在满足显著性水平的条件下,求解拒绝域中的参数
- 判断是否拒绝原假设(只能说拒绝或不拒绝,不能说接受)
3.1 参数检验
3.1.1 单正态总体均值
利用 \(\bar{\xi}\sim N(a,\frac{\sigma^2}{n})\) 和抽样分布定理即可解决,总结如下:

3.1.2 非正态总体均值
在样本量很大(至少大于50)时,若总体期望方差都存在有限,由中心极限定理:
近似作为正态总体处理,同上一节。
3.1.3 单正态总体方差
利用抽样分布定理即可解决,总结如下:

3.1.4 双正态总体均值和方差
统计量构造与“2.3.2 区间估计”完全相同,从略,仅给结论。
3.1.5 广义极大似然比检验
暂略
3.1.6 极大似然比检验
暂略
3.2 非参数检验
非参数检验用来判断样本是否来自于假设的分布,一般可用偏度、峰度检验法检验正态分布,皮尔逊 \(\chi^2\) 检验法则通用。
3.2.1 偏度、峰度检验
偏度:标准化随机变量 \(\frac{\xi-E(\xi)}{\sqrt{D(\xi)}}\) 的三阶原点矩,用来描述密度函数的偏斜程度。
峰度:标准化随机变量 \(\frac{\xi-E(\xi)}{\sqrt{D(\xi)}}\) 的四阶原点矩,用来描述密度函数的陡缓程度。
此检验方法主要利用引理:
若 \(\xi\) 服从正态,则当样本量足够大(>100),其偏度 \(g_1\) 和峰度 \(g_2\) 将满足:
\[g_1 \sim N\left( 0,\frac{6(n-2)}{(n+1)(n+3)} \right) \\ g_2 \sim N\left( \frac{3n-3}{n+1},\frac{24n(n-2)(n-3)}{(n+1)^2(n+3)(n+5)} \right) \]
因此,只需要检验样本的偏度和峰度是否满足上述分布即可,注意,拒绝域应当是两者的并集,且显著性水平应该各自为 \(\frac{\alpha}{2}\)。
3.2.2 皮尔逊 \(\chi^2\) 检验
检验 \(H_0: F(x)=F_0(x)\)
本质在于对比两分布的概率密度函数是否一致,基于皮尔逊在1900年证明的如下定理:
定义 \(\chi^2 = \sum\limits_{i=1}^m \frac{(v_i-np_i)^2}{np_i}\)
其中,将样本数据按直方图横轴划分的相同思想划分为 \(m\) 组,其中,每一组的样本数量是 \(v_i\)。然后,计算 \(F_0(x)\) 的概率密度函数在不同组之间的概率 \(p_i\),乘上总样本量 \(n\) 即为理论上的样本频次 \(np_i\)。所以,如果原假设成立,那么统计量 \(\chi^2\) 应该是接近 \(0\),即拒绝域为 \(\chi^2 > C\)。1900年皮尔逊证明了:
无论 \(F_0(x)\) 是何种分布,\(\chi^2 \stackrel{L}{\longrightarrow} \eta \sim \chi^2(m-1)\)。其中 \(L\) 指依分布收敛,\(m\) 指分组数。
根据上述定理设计的统计量,容易得到各显著性水平下的拒绝域表达。