极限理论的意义
极限理论的意义主要在于两方面:
- 构造渐进检验与渐进置信域
- 从理论上研究统计过程的效率
例 1:考虑对于位置参数的经典t检验:给定一个\(i.i.d.\)的样本\(X_1,X_2,…,\)均值\(\mu=E(X_1)\),我们希望检验\(H_0:\mu=\mu_0\)。
- 如果样本来自正态分布,则在 \(H_0\)下\(\frac{\sqrt{n}(\bar X_n-\mu_0)}{S_n}\)∼\(t_{n-1}\)。当\(|\frac{\sqrt{n}(\bar X_n-\mu_0)}{S_n}|>t_{n-1,\alpha/2}\)时,拒绝原假设\(H_0\) 为对于\(H_0\)水平为\(\alpha\)的检验。
- 当样本不服从正态分布时,上述结论不会总成立。但若样本的二阶矩有限,根据中心极限定理我们可知:当\(n \rightarrow \infty\)时
这时可以构造渐进水平为\(\alpha\)的检验:当\(|\frac{\sqrt{n}(\bar X_n-\mu_0)}{S_n}|>z_{\alpha/2}\)时,拒绝原假设\(H_0\) 。
例 2:考虑参数\(\theta\)的极大似然估计\(\hat{\theta}_n\),其中记总体密度函数为\(f_\theta,\theta\in \mathbb{R}^p\)。由后面的定理可知\(\sqrt{n}(\hat{\theta}_n-\theta)\)具有渐进分布\(N(0,\boldsymbol I_\theta)\),其中\(\boldsymbol{I}_{\boldsymbol{\theta}}=\mathrm{E}\left(\frac{\partial \log f_{\theta}}{\partial \boldsymbol{\theta}} \frac{\partial \log f_{\theta}}{\partial \boldsymbol{\theta}^{\top}}\right)\),为Fisher信息阵。由此可以构造参数\(\theta\)置信水平渐进为\(1-\alpha\)的置信域:
随机变量的收敛性
一些定义与记号
-
概率空间 \((\Omega, \mathcal{F}, \mathrm{P})\)
- \(\Omega\) : 样本空间,为一非空集合
- \(\mathcal{F}\): \(\Omega\)的子集构成的集合,且为\(\sigma\)-域
- \(\mathrm P\): 定义在\(\mathcal{F}\)上的概率测度
-
随机变量 \(X(w)\) : 从\(\Omega\) 到实数域 \(\mathbb{R}\) 的映射
-
随机向量:\(\boldsymbol{X}=\left(X_{1}, X_{2}, \ldots, X_{p}\right)^{\top}\) ,其中\(X_i\)为定义在\((\Omega, \mathcal{F})\)的随机变量
-
定义在\(\mathbb{R}^p\)上的右连续分布函数:\(F_{\boldsymbol{X}}(\boldsymbol{x})=\mathrm{P}(\{w: \boldsymbol{X}(w) \leq \boldsymbol{x}\}),\forall x \in \mathbb{R}^{p}\)
-
对于两随机向量 \(\boldsymbol{X}\) 和 \(\boldsymbol{Y}\),如果它们的分布函数相同,即 \(F_{X}=F_{Y}\),则称随机向量 \(\boldsymbol{X}\) 和 \(\boldsymbol{Y}\)依分布相同
依概率收敛
定义2.1: 设\(X_1,X_2,\cdots ,X_n\)和\(X\)为定义在\((\Omega, \mathcal{F}, \mathrm{P})\)上的随机向量。如果
\[\lim_{n\rightarrow \infty}\mathrm{P}\left(\left|X_{n}-X\right|>\epsilon\right) = 0, \forall \epsilon>0 \]则称\(X_n\)依概率收敛到\(X\),通常记作\(X_{n} \stackrel{p}{\rightarrow} X, n \rightarrow \infty\)
注:
- 对于p维随机向量\(X_1,X_2,\cdots ,X_n\)和\(X\),
如果\(\left\|\boldsymbol{X}_{n}-\boldsymbol{X}\right\| \stackrel{p}{\rightarrow} 0\),则\(\boldsymbol{X}_{n} \stackrel{p}{\rightarrow} \boldsymbol{X}\)
- 随机向量的依概率收敛\(\iff\)依分量收敛
几乎处处收敛
定义2.2: 设\(X_1,X_2,\cdots ,X_n\)和\(X\)为定义在\((\Omega, \mathcal{F}, \mathrm{P})\)上的随机向量。如果
\[\mathrm{P}\left(\lim _{n \rightarrow \infty}\left|X_{n}-X\right|=0\right)=1 \]则称\(X_n\)几乎处处收敛到\(X\),通常记作\(X_{n} \stackrel{wp1}{\rightarrow} X, n \rightarrow \infty\)
注:
-
几乎处处收敛强于依概率收敛
-
随机向量的几乎处处收敛\(\iff\)依分量收敛
-
几乎处处收敛的等价刻画:
\[\lim _{n \rightarrow \infty} \mathrm{P}\left(\left|X_{m}-X\right| \leq \epsilon, \text { all } m \geq n\right)=1, \forall \epsilon>0 \]
r阶矩收敛
定义2.3:设\(X_1,X_2,\cdots ,X_n\)和\(X\)为定义在\((\Omega, \mathcal{F}, \mathrm{P})\)上的随机向量。如果对于\(r>0\)
\[\lim _{n \rightarrow \infty} \mathrm{E}\left|X_{n}-X\right|^{r}=0 \]则称\(X_n\)r阶矩收敛到\(X\),通常记作\(X_{n} \stackrel{rth}{\rightarrow} X, n \rightarrow \infty\)
注:
- \(r=2\)时成为均方收敛
- \(X_{n} \stackrel{rth}{\rightarrow} X \Rightarrow X_{n} \stackrel{sth}{\rightarrow} X, 0<s<r\)
依分布收敛
定义2.4:设$X_1,X_2,\cdots \(和\)X\(为随机变量(不一定在同一概率空间),分布函数分别为\)F_{X_1}(\cdot),F_{X_2}(\cdot),\cdots\(和\)F_X(\cdot)$,如果
\[\lim _{n \rightarrow \infty} F_{X_{n}}(x)=F_{X}(x), \text { every continuity point } x \text { of } F_{X} \]则称\(X_n\)依分布收敛到\(X\),通常记作\(X_{n} \stackrel{d}{\rightarrow} X, n \rightarrow \infty\)
注:
-
向量收敛与依分布收敛不等价
-
(Portmanteau)\(\boldsymbol{X}_{n} \stackrel{d}{\rightarrow} \boldsymbol{X}\) \(\iff\)\(\mathrm{E}\left\{g\left(\boldsymbol{X}_{n}\right)\right\} \rightarrow \mathrm{E}\{g(\boldsymbol{X})\}\) 对任意有界连续函数 g
依分布收敛的几种等价刻画:
令 \(\boldsymbol{X}_{1}, \boldsymbol{X}_{2}, \ldots\) 和 \(\boldsymbol{X}\) 为p维随机向量
-
(Portmanteau) \(\boldsymbol{X}_{n} \stackrel{d}{\rightarrow} \boldsymbol{X}\) \(\iff\) \(\mathrm{E}\left\{g\left(\boldsymbol{X}_{n}\right)\right\} \rightarrow \mathrm{E}\{g(\boldsymbol{X})\}\) 对任意有界连续函数 \(\mathrm{g}\).
-
(Lévy's Continuity Theorem) \(\boldsymbol{X}_{n} \stackrel{d}{\rightarrow} \boldsymbol{X}\) \(\iff\) \(\varphi \boldsymbol{x}_{n}(\boldsymbol{t}) \rightarrow \varphi_{\boldsymbol{X}}(\boldsymbol{t})\) 对任意 \(\boldsymbol{t} \in \mathbb{R}^{p}\), 其中 \(\varphi_{\boldsymbol{X}}, \varphi \boldsymbol{x}_{1}, \varphi_{\boldsymbol{X}}, \ldots\) 分别为\(\boldsymbol{X}, \boldsymbol{X}_{1}, \boldsymbol{X}_{2}, \ldots\), 的特征函数
-
(Cramér-Wold Device) \(\boldsymbol{X}_{n} \stackrel{d}{\rightarrow} \boldsymbol{X}\) \(\iff\) \(\boldsymbol{c}^{\top} \boldsymbol{X}_{n} \stackrel{d}{\rightarrow} \boldsymbol{c}^{\top} \boldsymbol{X}\) 对任意 \(\boldsymbol{c} \in \mathbb{R}^{p}\).
几种收敛间的关系
定理:
(i) \(X_{n}\stackrel{w p 1}{\rightarrow} X \Rightarrow X_{n} \stackrel{p}{\rightarrow} X\)
(ii) \(X_{n}\stackrel{rth}{\rightarrow} X \Rightarrow X_{n} \stackrel{p}{\rightarrow} X\)
(iii) \(X_{n} \stackrel{p}{\rightarrow} X \Rightarrow X_{n} \stackrel{d}{\rightarrow} X\)
(iv) If\[\sum_{n=1}^{\infty} \mathrm{P}\left(\left|X_{n}-X\right|>\epsilon\right)<\infty, \text { every } \epsilon>0,{ }( converges\ completely) \]则 \(X_{n}\stackrel{w p 1}{\rightarrow} X\)
\(O\) 和\(o\)
定义2.5:若\(\forall \epsilon>0,\exist M_{\epsilon}\)和\(N\epsilon\)使得\(P(|X_n|>M_\epsilon)<\epsilon\)对所有的\(n>M_\epsilon\)均成立,则称\(\{X_n\}\)依概率有界,记作\(X_n=O_p(1)\)
定理(Prohorov):
\(X_{n} \stackrel{d}{\rightarrow} X \Rightarrow X_{n}=O_{p}(1)\)
若 \(X_{n}=O_{p}(1)\), 则存在子列 \(\{X_{n_i}\}\)和随机变量\(X\),使得 \(X_{n_{i}} \stackrel{d}{\rightarrow} X\) ,\(i\rightarrow \infty\)
定义2.6:若 \(X_{n} \stackrel{p}{\rightarrow} 0\), 则记作 \(X_{n}=o_{p}(1)\)。
连续映射定理
连续映射定理:令\(g: \mathbb{R}^{p} \mapsto \mathbb{R}^{m}\)为在集合\(C\)中几乎处处连续的映射。如果\(X_n\)依概率/几乎处处收敛/依分布收敛到\(X\),则\(g(X_n)\)依概率/几乎处处收敛/依分布收敛到\(g(X)\)
Slutsky定理
引理:如果\(X_{n} \stackrel{d}{\rightarrow} X\) 且\(Y_{n}-X_{n} \stackrel{p}{\rightarrow} 0\), 则 \(Y_{n} \stackrel{d}{\rightarrow} X\)
Slutsky定理:令\(X_{n} \stackrel{d}{\rightarrow} X\) 且\(Y_{n} \stackrel{p}{\rightarrow} c\), 其中 \(c\) 为常数。则:
(i) \(X_{n}+Y_{n} \stackrel{d}{\rightarrow} X+c\)
(ii) \(X_{n} Y_{n} \stackrel{d}{\rightarrow} c X\)
(iii) \(Y_{n}^{-1} X_{n} \stackrel{d}{\rightarrow} c^{-1} X\) ,其中 \(c \neq 0\)