數學 - 回歸分析 - 第 3 章 多元線性回歸 - 3.4 回歸方程的顯著性檢驗


3.4 回歸方程的顯著性檢驗

我們事先並不能斷定隨機變量 \(y\) 與變量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 之間確有線性關系,在進行回歸參數的估計之前,用多元線性回歸方程去擬合這種關系,只是根據一些定性分析所做的一種線性假設。在求出線性回歸方程后,還需對回歸方程進行顯著性檢驗。

下面介紹兩種統計檢驗方法:一種是回歸方程顯著性的 \(F\) 檢驗;另一種是回歸系數顯著性的 \(t\) 檢驗。同時介紹衡量回歸擬合程度的擬合優度檢驗。

3.4.1 \(F\) 檢驗

對多元線性回歸方程的顯著性檢驗要看自變量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 從整體上對隨機變量 \(y\) 是否有明顯的影響。為此提出原假設

\[H_0 : \beta_1 = \beta_2 = \cdots = \beta_p = 0 \tag{3.4.1} \]

如果 \(H_0\) 被接受,則表明隨機變量 \(y\) 與自變量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 之間的關系由線性回歸模型表示不合適。

類似於一元線性回歸,為了建立對原假設進行檢驗的 \(F\) 統計量,仍然利用總離差平方和的分解式,即

\[\sum_{i=1}^n (y_i - \overline{y})^2 = \sum_{i=1}^n (\hat{y}_i - \overline{y})^2 + \sum_{i=1}^n (y_i - \hat{y}_i)^2 \]

簡寫為:

\[\text{SST} = \text{SSR} + \text{SSE} \tag{3.4.2} \]

在多元線性回歸的場合,我們對上式做進一步解釋。

定理 3.4.1

  • \(\text{SSR} = \bm{y}'(H - \frac{1}{n} \bm{1} \bm{1}') \bm{y}\)

  • \(\text{SSE} = \bm{y}'(I - H)\bm{y}\)

  • \(\text{SST} = \bm{y}'(I - \frac{1}{n} \bm{1} \bm{1}')\bm{y}\)

證明:考慮 \(\text{SSE}\),有

\[\text{SSE} = \bm{e}' \bm{e} = \left[ (I-H) \bm{y} \right]'\left[ (I-H) \bm{y} \right] = \bm{y}' (I - H) \bm{y} \]

考慮 \(\text{SSR}\),有

\[\begin{align*} \text{SSR} & = \sum_{i=1}^n (\hat{y}_i - \overline{y})^2 \\ & = (\hat{\bm{y}} - \overline{y} \bm{1}_n)' (\hat{\bm{y}} - \overline{y} \bm{1}_n) \\ & = (H \bm{y} - \frac{1}{n} \bm{1}_n \bm{1}_n' \bm{y})' (H \bm{y} - \frac{1}{n} \bm{1}_n \bm{1}_n' \bm{y}) \\ & = \bm{y}' (H - \frac{1}{n} \bm{1}_n \bm{1}_n') \bm{y} \end{align*} \]

證畢。

引理 3.4.1

\(\bm{y} \sim N(\bm{\mu}, \sigma^2 I_n)\)\(U=\bm{y}' A \bm{y}\)\(V=\bm{y}' B \bm{y}\),其中 \(A\)\(B\)\(n \times n\) 的矩陣。

  • \(A^2=A\),則 \(U/\sigma^2 \sim \chi_{r,\lambda}^2\),其中 \(r=\text{rank}(A)\)\(\lambda = \bm{\mu}' A \bm{\mu} / \sigma^2\)

  • \(AB=0\),則 \(U、V\) 獨立。

證明略。

利用上述引理可以得到下述重要的定理。

定理 3.4.2

隨機向量 \(\bm{y} \sim N(X \bm{\beta}, \sigma^2 I_n)\),則有

  • 如果 \(\beta_1 = \beta_2 = \cdots = \beta_p=0\),則 \(\text{SSR} / \sigma^2 \sim \chi^2(p)\)

  • \(\text{SSE} / \sigma^2 \sim \chi^2(n-p-1)\)

  • \(\text{SSR}\)\(\text{SSE}\) 獨立。

證明: 證明第一點。由於 \(\beta_1 = \beta_2 = \cdots = \beta_p=0\),因此有

\[E(y_i) = \beta_0, \quad E(\bm{y}) = \beta_0 \bm{1}_n \]

\(A = H - \frac{1}{n} \bm{1}_n \bm{1}_n'\),可以驗證

\[A^2 = (H - \frac{1}{n} \bm{1}_n \bm{1}_n')^2 = (H^2 - H \frac{1}{n} \bm{1}_n \bm{1}_n' - \frac{1}{n} \bm{1}_n \bm{1}_n' H + \frac{1}{n} \bm{1}_n \bm{1}_n')=A \]

因此可知 \(A\) 是一個對稱冪等矩陣,由引理 \((3.4.1)\) 得到自由度

\[r = \text{rank} (A) = \text{tr} (A) = p+1 - 1=p \]

得到非中心參數

\[\lambda = \frac{1}{\sigma^2} (\beta_0 \bm{1}_n)' (H - \frac{1}{n} \bm{1}_n \bm{1}_n') (\beta_0 \bm{1}_n) = 0 \]

證明第二點。由於

\[\text{SSE} = \bm{y}'(I - H)\bm{y} \]

因此令 \(B = I - H\),可知 \(B\) 是一個對稱冪等陣,由引理 \((3.4.1)\) 得到自由度

\[r = \text{rank} (B) = \text{rank} (I-H) = \text{tr} (I-H) = n - p - 1 \]

得到非中心參數

\[\lambda = \frac{1}{\sigma^2} (X \bm{\beta})' (I - H) (X \bm{\beta}) = 0 \]

證畢。

構造 \(F\) 檢驗統計量如下:

\[F = \frac{\text{SSR} / p}{\text{SSE} / (n-p-1)} \tag{3.4.3} \]

對構造的 \(F\) 檢驗統計量,我們有

定理 3.4.3

在正態假設下,當原假設 \(H_0 : \beta_1 = \beta_2 = \cdots = \beta_p = 0\) 成立時,\(F\) 檢驗統計量服從自由度為 \((p, n-p-1)\)\(F\) 分布。

證明:由定理 \(3.4.2\) 可知,在正態假設下,原假設 \(H_0\) 成立時有

\[\text{SSR} / \sigma^2 \sim \chi^2(p), \quad \text{SSE} / \sigma^2 \sim \chi^2(n-p-1) \]

\(F\) 分布定義知

\[F \sim F(p, n-p-1) \]

證畢。

我們可以利用 \(F\) 統計量對回歸方程的總體顯著性進行檢驗。對於給定的數據,計算出 \(\text{SSR}\)\(\text{SSE}\),進而得到 \(F\) 值。我們可以得到類似一元線性回歸場合的方差分析表。

\[\begin{array}{|c|c|c|c|c|} \hline {方差來源} & {自由度} & {平方和} & {均方} & {F 值} & {P 值}\\ \hline {回歸} & {p} & {\text{SSR}} & {\text{SSR}/p} & {\frac{\text{SSR} / p}{\text{SSE} / (n-p-1)}} & {P(F > F 值) = P值} \\ \hline {殘差} & {n - p-1} & {\text{SSE}} & {\text{SSE} / (n-p-1)} & {} \\ \hline {總和} & {n - 1} & {\text{SST}} & {} & {} \\ \hline \end{array} \]

給定顯著性水平 \(\alpha\),得到臨界值 \(F_{\alpha}(p, n-p-1)\)

\(F > F_{\alpha}(p, n-p-1)\),拒絕原假設 \(H_0\),認為在顯著性水平 \(\alpha\) 下,\(y\)\(x_1\)\(x_2\)\(\cdots\)\(x_p\) 存在顯著的線性關系。

\(F \leqslant F_{\alpha}(p, n-p-1)\),接受原假設 \(H_0\),認為在顯著性水平 \(\alpha\) 下,\(y\)\(x_1\)\(x_2\)\(\cdots\)\(x_p\) 不存在顯著的線性關系。

與一元線性回歸一樣,也可以根據 \(P\) 值做檢驗,當 \(P\)\(< \alpha\) 時,拒絕原假設 \(H_0\);當 \(P\)\(\geqslant \alpha\) 時,接受原假設 \(H_0\)

3.4.2 \(t\) 檢驗

在多元線性回歸中,回歸方程顯著並不意味着每個自變量對 \(y\) 的影響都顯著,我們想從回歸方程中剔除那些次要的、可有可無的變量,重新建立更為簡單的回歸方程(降低模型復雜度,防止過擬合),所以需要對每個自變量進行顯著性檢驗。

顯然,如果某個自變量 \(x_j\)\(y\) 的作用不顯著,那么在回歸模型中,它的系數 \(\beta_j\) 就取值為 \(0\)。因此檢驗變量 \(x_j\) 是否顯著,等價於檢驗假設

\[H_{0j}:\beta_j = 0, \quad j = 1,2,\cdots,p \tag{3.4.4} \]

如果接受原假設 \(H_{0j}\),則 \(x_j\) 不顯著;如果拒絕原假設 \(H_{0j}\),則 \(x_j\) 是顯著的。

\(3.3.6\) 的正態性得到

\[\hat{\bm{\beta}} \sim N(\bm{\beta}, \sigma^2 (X'X)^{-1}) \]

\((X'X)^{-1} = (c_{ij})\),於是有

\[E(\hat{\beta}_j) = \beta_j, \quad \text{var}(\hat{\beta}_j) = c_{jj} \sigma^2 \]

\[\hat{\beta}_j \sim N(\beta_j, c_{jj} \sigma^2), \quad j = 0,1,\cdots,p \tag{3.4.5} \]

由此構成 \(t\) 統計量

\[t_j = \frac{\hat{\beta}_j}{\sqrt{c_{jj}} \, \hat{\sigma}} \tag{3.4.6} \]

其中 \(\hat{\sigma}\) 是回歸標准差:

\[\hat{\sigma} = \sqrt{\frac{1}{n-p-1} \sum_{i=1}^n e_i^2} = \sqrt{\frac{1}{n-p-1} \sum_{i=1}^n (y_i - \hat{y}_i)^2} \tag{3.4.7} \]

對構造的 \(t\) 檢驗統計量,我們有

定理 3.4.4

在正態假設下,當原假設 \(H_{0j} : \beta_j = 0\) 成立時,\(t_j\) 檢驗統計量服從自由度為 \(n-p-1\)\(t\) 分布。

證明:在正態假設下,當原假設 \(H_{0j} : \beta_j = 0\) 成立時,有

\[U = \frac{\hat{\beta}_j}{\sqrt{c_{jj}} \, \sigma} \sim N(0, 1) \]

由定理 \(3.4.2\) 可得

\[V = \frac{(n-p-1) \hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-p-1) \]

則有

\[t_j = \frac{\hat{\beta}_j}{\sqrt{c_{jj}} \, \hat{\sigma}} = \frac{\hat{\beta}_j}{\sqrt{c_{jj}} \, \sigma} \frac{\sigma}{\hat{\sigma}} = \frac{U}{\frac{\hat{\sigma}}{\sigma}} = \frac{U}{\sqrt{V/(n-p-1)}} \sim t(n-p-1) \]

證畢。

給定顯著性水平 \(\alpha\),查出雙側檢驗的臨界值 \(t_{\alpha/2}\)

\(|t_j| \geqslant t_{\alpha / 2}\),拒絕原假設 \(H_{0j}\),認為 \(\beta_{j}\) 顯著不為 \(0\),自變量 \(x_j\) 對因變量 \(y\) 的線性效果顯著。

\(|t_j| < t_{\alpha / 2}\),接受原假設 \(H_{0j}\),認為 \(\beta_{j}\) 顯著為 \(0\),自變量 \(x_j\) 對因變量 \(y\) 的線性效果不顯著。

在教材上給出一個關於城鎮消費性支出的例子,由 \(F\) 檢驗可以知道回歸方程整體是顯著的,即 \(9\) 個自變量作為一個整體對因變量 \(y\) 有十分顯著的影響,但軟件計算發現,關於 \(\beta_j\)\(t\) 統計量 \(t_j\),在顯著性水平 \(\alpha = 0.05\) 時只有 \(x_1\)\(x_2\)\(x_3\)\(x_5\) 通過了顯著性檢驗。這個例子說明,盡管回歸方程高度顯著,但也會出現某些自變量 \(x_j\)\(y\) 無顯著影響的情況。

多元回歸中,並不是包含在回歸方程中的自變量越多越好(之后有詳細討論)。在此介紹一種簡單的剔除多余變量的方法——后退法

當有多個自變量對因變量 \(y\) 無顯著影響時,由於自變量之間的交互作用,不能一次剔除掉所有不顯著的變量。原則上每次只剔除一個變量,且先剔除其中 \(|t|\) 值最小(或 \(|P|\) 值最大)的一個變量,然后再對求得的新的回歸方程進行檢驗,有不顯著的變量再從中選出最不顯著的進行剔除,直到保留的變量都對 \(y\) 有顯著影響為止。

使用后退法時,由於各個自變量的單位不同,注意標准化數據

3.4.3 \(t\) 檢驗與 \(F\) 檢驗的關系:偏 \(F\) 檢驗

在一元線性回歸中,回歸系數顯著性的 \(t\) 檢驗與回歸方程顯著性的 \(F\) 檢驗是等價的,但在多元線性回歸中,這兩種檢驗並不等價。\(F\) 檢驗顯著,只能說明 \(y\) 對自變量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 整體的線性回歸效果是顯著的,不能說明 \(y\) 對每個自變量 \(x_i\) 的回歸效果都顯著。

從另一個角度考慮自變量 \(x_j\) 的顯著性。

\(y\) 對自變量 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 線性回歸的殘差平方和為 \(\text{SSE}\),回歸平方和為 \(\text{SSR}\)。在剔除掉 \(x_j\) 后,用 \(y\) 對其余的 \(p-1\) 個自變量做回歸,記所得的殘差平方和為 \(\text{SSE}_{(j)}\),回歸平方和為 \(\text{SSR}_{(j)}\),則自變量 \(x_j\) 對回歸的貢獻為

\[\Delta \text{SSR}_{(j)} = \text{SSR} - \text{SSR}_{(j)} \tag{3.4.8} \]

稱上式為 \(x_j\)偏回歸平方和。由此構造偏 \(F\) 檢驗統計量

\[F_j = \frac{\Delta \text{SSR}_{(j)} / 1}{\text{SSE} / (n-p-1)} \tag{3.4.9} \]

定理 3.4.5

在正態假設下,當原假設 \(H_{0j}:\beta_j = 0\) 成立時,偏 \(F\) 檢驗統計量 \(F_j\) 服從自由度為 \((1,n-p-1)\)\(F\) 分布。

證明:由定理 \(3.4.1\),我們有

\[\begin{align*} \Delta \text{SSR}_{(j)} & = \text{SSR} - \text{SSR}_{(j)} \\ & = \bm{y}'(H - \frac{1}{n} \bm{1} \bm{1}') \bm{y} - \bm{y}'(H^* - \frac{1}{n} \bm{1} \bm{1}') \bm{y} \\ & = \bm{y}'(H - H^*) \bm{y} \\ & = \bm{y}'( \begin{bmatrix} X_1 & \bm{x_j} & X_2 \end{bmatrix} (\begin{bmatrix} X_1 & \bm{x_j} & X_2 \end{bmatrix}' \begin{bmatrix} X_1 & \bm{x_j} & X_2 \end{bmatrix})^{-1} \begin{bmatrix} X_1 & \bm{x_j} & X_2 \end{bmatrix}' y \\ & = \hat{\beta}_j^2 / c_{jj} \end{align*} \]

在正態假設下,當原假設 \(H_0\) 成立時,由式 \((3.4.5)\)

\[\frac{\Delta \text{SSR}_{(j)}}{\sigma^2} = \frac{\hat{\beta}_j^2}{c_{jj} \sigma^2} = \left( \frac{\hat{\beta}_j}{\sqrt{c_{jj}} \, \sigma} \right)^2 \sim \chi^2(1) \]

證畢。

可以證明上式給出的偏 \(F\) 檢驗與 \(t\) 檢驗是一致的,具體有下述定理

定理 3.4.6

對式 \((3.4.9)\) 的偏 \(F\) 檢驗統計量和式 \((3.4.6)\)\(t\) 檢驗統計量有關系式

\[F_j = t_j^2 \]

證明:

\[t_j^2 = \frac{\hat{\beta}_j^2 / c_{jj}}{\hat{\sigma}^2} = \frac{\text{SSR} - \text{SSR}_{(j)}}{\text{SSE} / (n-p-1)} = \frac{\Delta \text{SSR}_{(j)} / 1}{\text{SSE} / (n-p-1)} = F_j \tag{3.4.10} \]

證畢。
當從回歸方程中剔除變元時,回歸平方和減少,殘差平方和增加。反之,往回歸方程中引入變元,回歸平方和增加,殘差平方和減少,且兩者的增減量相等。具體地,根據平方和分解式可得下式關系

\[\Delta \text{SSR}_{(j)} = \Delta \text{SSE}_{(j)} = \text{SSE}_{(j)} - \text{SSE} \]

3.4.4 擬合優度

擬合優度用於檢驗回歸方程對樣本觀測值的擬合程度。在一元線性回歸中,定義了樣本決定系數 \(r^2 = \text{SSR} / \text{SST}\),在多元線性回歸中,同樣可以定義樣本決定系數為:

\[R^2 = \frac{ \text{SSR} }{ \text{SST} } = 1 - \frac{ \text{SSE} }{ \text{SST} } \tag{3.4.11} \]

樣本決定系數 \(R^2\) 的取值在 \([0,1]\) 區間內,\(R^2\) 越接近 \(1\),表明回歸擬合的效果越好;\(R^2\) 越接近 \(0\),表明回歸擬合的效果越差。與 \(F\) 檢驗相比,\(R^2\) 可以更清楚直觀地反映回歸擬合的效果,但是並不能作為嚴格的顯著性檢驗。

\[R = \sqrt{R^2} = \sqrt{\frac{ \text{SSR} }{ \text{SST} }} \tag{3.4.14} \]

稱上式給出的 \(R\)\(y\) 關於 \(x_1\)\(x_2\)\(\cdots\)\(x_p\) 的樣本復相關系數。在兩個變量的簡單相關系數中,相關系數有正負之分,而復相關系數表示的是因變量 \(y\) 與全體自變量之間的線性關系,它的符號不能由某一個自變量的回歸系數的符號確定,因而都取正號。。。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM