数学 - 回归分析 - 第 3 章多元线性回归 - 3.6 多元线性回归的区间估计

本文转载自查看原文 2022-03-19 00:24 1207 数学 - 回归分析

3.6 多元线性回归的区间估计

3.6.1 回归系数的置信区间

当我们有了参数向量 $\bm{\beta}$ 的估计量 $\hat{\bm{\beta}}$ 时，需构造 $\beta_j$ 的一个区间——以 $\hat{\beta}_j$ 为中心的区间，该区间以一定概率包含 $\beta_j$。由式 $(3.4.5)$ 知 $\hat{\beta_j}$ 的分布

\[\hat{\beta}_j \sim N(\beta_j, c_{jj} \sigma^2), \quad j = 0,1,\cdots,p \]

由此构造出一个枢轴变量

\[t_j = \frac{\hat{\beta}_j - \beta_j}{\sqrt{c_{jj}} \, \hat{\sigma}} \tag{3.6.1} \]

由定理可知 $t_j$ 的分布与 $t$ 检验统计量式 $(3.4.6)$ 一样，因此有

\[t_j \sim t(n-p-1) \]

给定显著性水平 $\alpha$，有

\[P \left( \left| \frac{\hat{\beta}_j - \beta_j}{\sqrt{c_{jj}} \, \hat{\sigma}} \right| < t_{\alpha / 2}(n-p-1)\right) = 1-\alpha \]

得到 $\beta_j$ 的置信度为 $1 - \alpha$ 的置信区间为

\[\left( \hat{\beta}_j - t_{\alpha / 2} \sqrt{c_{jj}} \, \hat{\sigma}, \hat{\beta}_j + t_{\alpha / 2} \sqrt{c_{jj}} \, \hat{\sigma}\right) \tag{3.6.2} \]

3.6.2 预测值的置信区间

预测和控制是回归模型最重要的应用，控制作为预测的反问题，此处只介绍预测。

与一元线性回归场合类似，预测分为单值预测和区间预测。考虑多元线性理论回归方程

\[y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \varepsilon \tag{3.6.3} \]

根据已知的介绍，用最小二乘估计得到回归参数估计值。考虑多元线性经验回归方程

\[\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_p x_p = \bm{x}' \hat{\bm{\beta}} \tag{3.6.4} \]

单值预测较为简单，当给定 $\bm{x}_0$ 时，我们用点估计 $\hat{y}_0 = \bm{x}_0' \hat{\bm{\beta}} $ 作为因变量新值的预测值，显然该估计是无偏估计。

下面重点考虑区间预测。

(1) 因变量新值的区间预测

将 $y_0 - \hat{y}_0$ 视为整体，容易知该随机变量是两个正态变量相减，因此整体服从正态分布。先求期望

\[E(y_0 - \hat{y}_0) = 0 \]

再考虑方差，预测值 $\hat{y}_0$ 是先前独立观测到的随机变量 $y_1$，$y_2$，$\cdots$，$y_n$ 的线性组合，现在因变量新值 $y_0$ 与之前的观测值 $y_i$ 是独立的，所以 $y_0$ 与 $\hat{y}_0$ 是独立的。此时有

\[D(y_0 - \hat{y}_0) = D(y_0) + D(\hat{y}_0) = \sigma^2 + \bm{x}_0' \sigma^2 (X'X)^{-1} \bm{x}_0 = \sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0) \]

由此构造出一个枢轴变量

\[t = \frac{y_0 - \hat{y}_0}{\sqrt{\sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0)}} \sim t(n-p-1) \]

给定显著性水平 $\alpha$，得到置信度为 $1 - \alpha$ 的置信区间为

\[\hat{y}_0 - t_{\alpha / 2} (n-p-1) \sqrt{\sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0)} < y_0 < \hat{y}_0 + t_{\alpha / 2} (n-p-1) \sqrt{\sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0)} \]

(2) 因变量新值的平均值的区间预测

\[\hat{y}_0 = \bm{x}_0' \hat{\bm{\beta}} = \bm{x}_0' (X'X)^{-1} X' \bm{y} \]

由于

\[\bm{y} \sim N(X \bm{\beta}, \sigma^2 I_n) \]

得到

\[y_0 \sim N(\bm{x}_0' \bm{\beta}, \sigma^2) \]

得到

\[E(\hat{y}_0) = \bm{x}_0' (X'X)^{-1} X' E(\bm{y}) = \bm{x}_0' (X'X)^{-1} X'X \bm{\beta} = \bm{x}_0' \bm{\beta} \]

\[D(\hat{y}_0) = \bm{x}_0' (X'X)^{-1} X' D(\bm{y}) (\bm{x}_0' (X'X)^{-1} X')' = \sigma^2 \bm{x}_0' (X'X)^{-1} X' X (X'X)^{-1} \bm{x}_0 = \sigma^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 \]

故

\[\hat{y}_0 \sim N(\bm{x}_0' \bm{\beta}, \sigma^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 ) \]

由此构造出一个枢轴变量

\[t = \frac{\hat{y}_0 - \bm{x}_0' \bm{\beta}}{\sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 }} = \frac{\hat{y}_0 - E(y_0) }{\sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 }} \sim t(n-p-1) \]

给定显著性水平 $\alpha$，得到置信度为 $1 - \alpha$ 的置信区间为

\[\hat{y}_0 - t_{\alpha / 2} (n-p-1) \sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 } < E(y \, | \, \bm{x}_0) < \hat{y}_0 + t_{\alpha / 2} (n-p-1) \sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 } \]

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 数学 - 回归分析 - 第 3 章多元线性回归 - 3.2 回归参数估计数学 - 回归分析 - 第 3 章多元线性回归 - 3.1 多元线性回归模型数学 - 回归分析 - 第 3 章多元线性回归 - 3.3 参数估计量的性质数学 - 回归分析 - 第 3 章多元线性回归 - 3.4 回归方程的显著性检验数学 - 回归分析 - 第 3 章多元线性回归 - 3.5 中心化和标准化【R】多元线性回归回归算法--多元线性回归多元线性回归 ——模型、估计、检验与预测多元线性回归模型多元线性回归模型