數學 - 回歸分析 - 第 3 章 多元線性回歸 - 3.6 多元線性回歸的區間估計


3.6 多元線性回歸的區間估計

3.6.1 回歸系數的置信區間

當我們有了參數向量 \(\bm{\beta}\) 的估計量 \(\hat{\bm{\beta}}\) 時,需構造 \(\beta_j\) 的一個區間——以 \(\hat{\beta}_j\) 為中心的區間,該區間以一定概率包含 \(\beta_j\)。由式 \((3.4.5)\)\(\hat{\beta_j}\) 的分布

\[\hat{\beta}_j \sim N(\beta_j, c_{jj} \sigma^2), \quad j = 0,1,\cdots,p \]

由此構造出一個樞軸變量

\[t_j = \frac{\hat{\beta}_j - \beta_j}{\sqrt{c_{jj}} \, \hat{\sigma}} \tag{3.6.1} \]

由定理可知 \(t_j\) 的分布與 \(t\) 檢驗統計量式 \((3.4.6)\) 一樣,因此有

\[t_j \sim t(n-p-1) \]

給定顯著性水平 \(\alpha\),有

\[P \left( \left| \frac{\hat{\beta}_j - \beta_j}{\sqrt{c_{jj}} \, \hat{\sigma}} \right| < t_{\alpha / 2}(n-p-1)\right) = 1-\alpha \]

得到 \(\beta_j\) 的置信度為 \(1 - \alpha\) 的置信區間為

\[\left( \hat{\beta}_j - t_{\alpha / 2} \sqrt{c_{jj}} \, \hat{\sigma}, \hat{\beta}_j + t_{\alpha / 2} \sqrt{c_{jj}} \, \hat{\sigma}\right) \tag{3.6.2} \]

3.6.2 預測值的置信區間

預測和控制是回歸模型最重要的應用,控制作為預測的反問題,此處只介紹預測。

與一元線性回歸場合類似,預測分為單值預測區間預測。考慮多元線性理論回歸方程

\[y = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p + \varepsilon \tag{3.6.3} \]

根據已知的介紹,用最小二乘估計得到回歸參數估計值。考慮多元線性經驗回歸方程

\[\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_p x_p = \bm{x}' \hat{\bm{\beta}} \tag{3.6.4} \]

單值預測較為簡單,當給定 \(\bm{x}_0\) 時,我們用點估計 $\hat{y}_0 = \bm{x}_0' \hat{\bm{\beta}} $ 作為因變量新值的預測值,顯然該估計是無偏估計。

下面重點考慮區間預測。

(1) 因變量新值的區間預測

\(y_0 - \hat{y}_0\) 視為整體,容易知該隨機變量是兩個正態變量相減,因此整體服從正態分布。先求期望

\[E(y_0 - \hat{y}_0) = 0 \]

再考慮方差,預測值 \(\hat{y}_0\) 是先前獨立觀測到的隨機變量 \(y_1\)\(y_2\)\(\cdots\)\(y_n\) 的線性組合,現在因變量新值 \(y_0\) 與之前的觀測值 \(y_i\) 是獨立的,所以 \(y_0\)\(\hat{y}_0\) 是獨立的。此時有

\[D(y_0 - \hat{y}_0) = D(y_0) + D(\hat{y}_0) = \sigma^2 + \bm{x}_0' \sigma^2 (X'X)^{-1} \bm{x}_0 = \sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0) \]

由此構造出一個樞軸變量

\[t = \frac{y_0 - \hat{y}_0}{\sqrt{\sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0)}} \sim t(n-p-1) \]

給定顯著性水平 \(\alpha\),得到置信度為 \(1 - \alpha\) 的置信區間為

\[\hat{y}_0 - t_{\alpha / 2} (n-p-1) \sqrt{\sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0)} < y_0 < \hat{y}_0 + t_{\alpha / 2} (n-p-1) \sqrt{\sigma^2 (1 + \bm{x}_0' (X'X)^{-1} \bm{x}_0)} \]

(2) 因變量新值的平均值的區間預測

\[\hat{y}_0 = \bm{x}_0' \hat{\bm{\beta}} = \bm{x}_0' (X'X)^{-1} X' \bm{y} \]

由於

\[\bm{y} \sim N(X \bm{\beta}, \sigma^2 I_n) \]

得到

\[y_0 \sim N(\bm{x}_0' \bm{\beta}, \sigma^2) \]

得到

\[E(\hat{y}_0) = \bm{x}_0' (X'X)^{-1} X' E(\bm{y}) = \bm{x}_0' (X'X)^{-1} X'X \bm{\beta} = \bm{x}_0' \bm{\beta} \]

\[D(\hat{y}_0) = \bm{x}_0' (X'X)^{-1} X' D(\bm{y}) (\bm{x}_0' (X'X)^{-1} X')' = \sigma^2 \bm{x}_0' (X'X)^{-1} X' X (X'X)^{-1} \bm{x}_0 = \sigma^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 \]

\[\hat{y}_0 \sim N(\bm{x}_0' \bm{\beta}, \sigma^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 ) \]

由此構造出一個樞軸變量

\[t = \frac{\hat{y}_0 - \bm{x}_0' \bm{\beta}}{\sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 }} = \frac{\hat{y}_0 - E(y_0) }{\sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 }} \sim t(n-p-1) \]

給定顯著性水平 \(\alpha\),得到置信度為 \(1 - \alpha\) 的置信區間為

\[\hat{y}_0 - t_{\alpha / 2} (n-p-1) \sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 } < E(y \, | \, \bm{x}_0) < \hat{y}_0 + t_{\alpha / 2} (n-p-1) \sqrt{\hat{\sigma}^2 \bm{x}_0' (X'X)^{-1} \bm{x}_0 } \]


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM