数学 - 回归分析 - 第 3 章 多元线性回归 - 3.6 多元线性回归的区间估计


3.6 多元线性回归的区间估计

3.6.1 回归系数的置信区间

当我们有了参数向量 \(\bm{\beta}\) 的估计量 \(\hat{\bm{\beta}}\) 时,需构造 \(\beta_j\) 的一个区间——以 \(\hat{\beta}_j\) 为中心的区间,该区间以一定概率包含 \(\beta_j\)。由式 \((3.4.5)\)\(\hat{\beta_j}\) 的分布

\[\hat{\beta}_j \sim N(\beta_j, c_{jj} \sigma^2), \quad j = 0,1,\cdots,p \]

由此构造出一个枢轴变量

\[t_j = \frac{\hat{\beta}_j - \beta_j}{\sqrt{c_{jj}} \, \hat{\sigma}} \tag{3.6.1} \]

由定理可知 \(t_j\) 的分布与 \(t\) 检验统计量式 \((3.4.6)\) 一样,因此有

\[t_j \sim t(n-p-1) \]

给定显著性水平 \(\alpha\),有

\[P \left( \left| \frac{\hat{\beta}_j - \beta_j}{\sqrt{c_{jj}} \, \hat{\sigma}} \right| < t_{\alpha / 2}(n-p-1)\right) = 1-\alpha \]

得到 \(\beta_j\) 的置信度为 \(1 - \alpha\) 的置信区间为

\[\left( \hat{\beta}_j - t_{\alpha / 2} \sqrt{c_{jj}} \, \hat{\sigma}, \hat{\beta}_j + t_{\alpha / 2} \sqrt{c_{jj}} \, \hat{\sigma}\right) \tag{3.6.2} \]

3.6.2 预测值的置信区间

预测和控制是回归模型最重要的应用,控制作为预测的反问题,此处只介绍预测。

与一元线性回归场合类似,预测分为单值预测区间预测。考虑多元线性理论回归方程

\[y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \varepsilon \tag{3.6.3} \]

根据已知的介绍,用最小二乘估计得到回归参数估计值。考虑多元线性经验回归方程

\[\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_p x_p = \bm{x}' \hat{\bm{\beta}} \tag{3.6.4} \]

单值预测较为简单,当给定 \(\bm{x}_0\) 时,我们用点估计 $\hat{y}_0 = \bm{x}_0' \hat{\bm{\beta}} $ 作为因变量新值的预测值,显然该估计是无偏估计。

下面重点考虑区间预测。

(1) 因变量新值的区间预测

\(y_0 - \hat{y}_0\) 视为整体,容易知该随机变量是两个正态变量相减,因此整体服从正态分布。先求期望

\[E(y_0 - \hat{y}_0) = 0 \]

再考虑方差,预测值 \(\hat{y}_0\) 是先前独立观测到的随机变量 \(y_1\)\(y_2\)\(\cdots\)\(y_n\) 的线性组合,现在因变量新值 \(y_0\) 与之前的观测值 \(y_i\) 是独立的,所以 \(y_0\)\(\hat{y}_0\) 是独立的。此时有

\[D(y_0 - \hat{y}_0) = D(y_0) + D(\hat{y}_0) = \sigma^2 + \bm{x}_0' \sigma^2 (X'X)^{-1} \bm{x}_0 = \sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0) \]

由此构造出一个枢轴变量

\[t = \frac{y_0 - \hat{y}_0}{\sqrt{\sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0)}} \sim t(n-p-1) \]

给定显著性水平 \(\alpha\),得到置信度为 \(1 - \alpha\) 的置信区间为

\[\hat{y}_0 - t_{\alpha / 2} (n-p-1) \sqrt{\sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0)} < y_0 < \hat{y}_0 + t_{\alpha / 2} (n-p-1) \sqrt{\sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0)} \]

(2) 因变量新值的平均值的区间预测

\[\hat{y}_0 = \bm{x}_0' \hat{\bm{\beta}} = \bm{x}_0' (X'X)^{-1} X' \bm{y} \]

由于

\[\bm{y} \sim N(X \bm{\beta}, \sigma^2 I_n) \]

得到

\[y_0 \sim N(\bm{x}_0' \bm{\beta}, \sigma^2) \]

得到

\[E(\hat{y}_0) = \bm{x}_0' (X'X)^{-1} X' E(\bm{y}) = \bm{x}_0' (X'X)^{-1} X'X \bm{\beta} = \bm{x}_0' \bm{\beta} \]

\[D(\hat{y}_0) = \bm{x}_0' (X'X)^{-1} X' D(\bm{y}) (\bm{x}_0' (X'X)^{-1} X')' = \sigma^2 \bm{x}_0' (X'X)^{-1} X' X (X'X)^{-1} \bm{x}_0 = \sigma^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 \]

\[\hat{y}_0 \sim N(\bm{x}_0' \bm{\beta}, \sigma^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 ) \]

由此构造出一个枢轴变量

\[t = \frac{\hat{y}_0 - \bm{x}_0' \bm{\beta}}{\sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 }} = \frac{\hat{y}_0 - E(y_0) }{\sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 }} \sim t(n-p-1) \]

给定显著性水平 \(\alpha\),得到置信度为 \(1 - \alpha\) 的置信区间为

\[\hat{y}_0 - t_{\alpha / 2} (n-p-1) \sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 } < E(y \, | \, \bm{x}_0) < \hat{y}_0 + t_{\alpha / 2} (n-p-1) \sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 } \]


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM