3.4 回歸方程的顯著性檢驗
我們事先並不能斷定隨機變量 \(y\) 與變量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 之間確有線性關系,在進行回歸參數的估計之前,用多元線性回歸方程去擬合這種關系,只是根據一些定性分析所做的一種線性假設。在求出線性回歸方程后,還需對回歸方程進行顯著性檢驗。
下面介紹兩種統計檢驗方法:一種是回歸方程顯著性的 \(F\) 檢驗;另一種是回歸系數顯著性的 \(t\) 檢驗。同時介紹衡量回歸擬合程度的擬合優度檢驗。
3.4.1 \(F\) 檢驗
對多元線性回歸方程的顯著性檢驗要看自變量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 從整體上對隨機變量 \(y\) 是否有明顯的影響。為此提出原假設
如果 \(H_0\) 被接受,則表明隨機變量 \(y\) 與自變量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 之間的關系由線性回歸模型表示不合適。
類似於一元線性回歸,為了建立對原假設進行檢驗的 \(F\) 統計量,仍然利用總離差平方和的分解式,即
簡寫為:
在多元線性回歸的場合,我們對上式做進一步解釋。
定理 3.4.1
\(\text{SSR} = \bm{y}'(H - \frac{1}{n} \bm{1} \bm{1}') \bm{y}\)
\(\text{SSE} = \bm{y}'(I - H)\bm{y}\)
\(\text{SST} = \bm{y}'(I - \frac{1}{n} \bm{1} \bm{1}')\bm{y}\)
證明:考慮 \(\text{SSE}\),有
考慮 \(\text{SSR}\),有
證畢。
引理 3.4.1
設 \(\bm{y} \sim N(\bm{\mu}, \sigma^2 I_n)\),\(U=\bm{y}' A \bm{y}\),\(V=\bm{y}' B \bm{y}\),其中 \(A\),\(B\) 為 \(n \times n\) 的矩陣。
若 \(A^2=A\),則 \(U/\sigma^2 \sim \chi_{r,\lambda}^2\),其中 \(r=\text{rank}(A)\),\(\lambda = \bm{\mu}' A \bm{\mu} / \sigma^2\)。
若 \(AB=0\),則 \(U、V\) 獨立。
證明略。
利用上述引理可以得到下述重要的定理。
定理 3.4.2
隨機向量 \(\bm{y} \sim N(X \bm{\beta}, \sigma^2 I_n)\),則有
如果 \(\beta_1 = \beta_2 = \cdots = \beta_p=0\),則 \(\text{SSR} / \sigma^2 \sim \chi^2(p)\);
\(\text{SSE} / \sigma^2 \sim \chi^2(n-p-1)\);
\(\text{SSR}\) 與 \(\text{SSE}\) 獨立。
證明: 證明第一點。由於 \(\beta_1 = \beta_2 = \cdots = \beta_p=0\),因此有
令 \(A = H - \frac{1}{n} \bm{1}_n \bm{1}_n'\),可以驗證
因此可知 \(A\) 是一個對稱冪等矩陣,由引理 \((3.4.1)\) 得到自由度
得到非中心參數
證明第二點。由於
因此令 \(B = I - H\),可知 \(B\) 是一個對稱冪等陣,由引理 \((3.4.1)\) 得到自由度
得到非中心參數
證畢。
構造 \(F\) 檢驗統計量如下:
對構造的 \(F\) 檢驗統計量,我們有
定理 3.4.3
在正態假設下,當原假設 \(H_0 : \beta_1 = \beta_2 = \cdots = \beta_p = 0\) 成立時,\(F\) 檢驗統計量服從自由度為 \((p, n-p-1)\) 的 \(F\) 分布。
證明:由定理 \(3.4.2\) 可知,在正態假設下,原假設 \(H_0\) 成立時有
由 \(F\) 分布定義知
證畢。
我們可以利用 \(F\) 統計量對回歸方程的總體顯著性進行檢驗。對於給定的數據,計算出 \(\text{SSR}\) 和 \(\text{SSE}\),進而得到 \(F\) 值。我們可以得到類似一元線性回歸場合的方差分析表。
給定顯著性水平 \(\alpha\),得到臨界值 \(F_{\alpha}(p, n-p-1)\)。
當 \(F > F_{\alpha}(p, n-p-1)\),拒絕原假設 \(H_0\),認為在顯著性水平 \(\alpha\) 下,\(y\) 與 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 存在顯著的線性關系。
當 \(F \leqslant F_{\alpha}(p, n-p-1)\),接受原假設 \(H_0\),認為在顯著性水平 \(\alpha\) 下,\(y\) 與 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 不存在顯著的線性關系。
與一元線性回歸一樣,也可以根據 \(P\) 值做檢驗,當 \(P\) 值 \(< \alpha\) 時,拒絕原假設 \(H_0\);當 \(P\) 值 \(\geqslant \alpha\) 時,接受原假設 \(H_0\)。
3.4.2 \(t\) 檢驗
在多元線性回歸中,回歸方程顯著並不意味着每個自變量對 \(y\) 的影響都顯著,我們想從回歸方程中剔除那些次要的、可有可無的變量,重新建立更為簡單的回歸方程(降低模型復雜度,防止過擬合),所以需要對每個自變量進行顯著性檢驗。
顯然,如果某個自變量 \(x_j\) 對 \(y\) 的作用不顯著,那么在回歸模型中,它的系數 \(\beta_j\) 就取值為 \(0\)。因此檢驗變量 \(x_j\) 是否顯著,等價於檢驗假設
如果接受原假設 \(H_{0j}\),則 \(x_j\) 不顯著;如果拒絕原假設 \(H_{0j}\),則 \(x_j\) 是顯著的。
由 \(3.3.6\) 的正態性得到
令 \((X'X)^{-1} = (c_{ij})\),於是有
由此構成 \(t\) 統計量
其中 \(\hat{\sigma}\) 是回歸標准差:
對構造的 \(t\) 檢驗統計量,我們有
定理 3.4.4
在正態假設下,當原假設 \(H_{0j} : \beta_j = 0\) 成立時,\(t_j\) 檢驗統計量服從自由度為 \(n-p-1\) 的 \(t\) 分布。
證明:在正態假設下,當原假設 \(H_{0j} : \beta_j = 0\) 成立時,有
由定理 \(3.4.2\) 可得
則有
證畢。
給定顯著性水平 \(\alpha\),查出雙側檢驗的臨界值 \(t_{\alpha/2}\)。
當 \(|t_j| \geqslant t_{\alpha / 2}\),拒絕原假設 \(H_{0j}\),認為 \(\beta_{j}\) 顯著不為 \(0\),自變量 \(x_j\) 對因變量 \(y\) 的線性效果顯著。
當 \(|t_j| < t_{\alpha / 2}\),接受原假設 \(H_{0j}\),認為 \(\beta_{j}\) 顯著為 \(0\),自變量 \(x_j\) 對因變量 \(y\) 的線性效果不顯著。
在教材上給出一個關於城鎮消費性支出的例子,由 \(F\) 檢驗可以知道回歸方程整體是顯著的,即 \(9\) 個自變量作為一個整體對因變量 \(y\) 有十分顯著的影響,但軟件計算發現,關於 \(\beta_j\) 的 \(t\) 統計量 \(t_j\),在顯著性水平 \(\alpha = 0.05\) 時只有 \(x_1\),\(x_2\),\(x_3\),\(x_5\) 通過了顯著性檢驗。這個例子說明,盡管回歸方程高度顯著,但也會出現某些自變量 \(x_j\) 對 \(y\) 無顯著影響的情況。
多元回歸中,並不是包含在回歸方程中的自變量越多越好(之后有詳細討論)。在此介紹一種簡單的剔除多余變量的方法——后退法。
當有多個自變量對因變量 \(y\) 無顯著影響時,由於自變量之間的交互作用,不能一次剔除掉所有不顯著的變量。原則上每次只剔除一個變量,且先剔除其中 \(|t|\) 值最小(或 \(|P|\) 值最大)的一個變量,然后再對求得的新的回歸方程進行檢驗,有不顯著的變量再從中選出最不顯著的進行剔除,直到保留的變量都對 \(y\) 有顯著影響為止。
使用后退法時,由於各個自變量的單位不同,注意標准化數據。
3.4.3 \(t\) 檢驗與 \(F\) 檢驗的關系:偏 \(F\) 檢驗
在一元線性回歸中,回歸系數顯著性的 \(t\) 檢驗與回歸方程顯著性的 \(F\) 檢驗是等價的,但在多元線性回歸中,這兩種檢驗並不等價。\(F\) 檢驗顯著,只能說明 \(y\) 對自變量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 整體的線性回歸效果是顯著的,不能說明 \(y\) 對每個自變量 \(x_i\) 的回歸效果都顯著。
從另一個角度考慮自變量 \(x_j\) 的顯著性。
\(y\) 對自變量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 線性回歸的殘差平方和為 \(\text{SSE}\),回歸平方和為 \(\text{SSR}\)。在剔除掉 \(x_j\) 后,用 \(y\) 對其余的 \(p-1\) 個自變量做回歸,記所得的殘差平方和為 \(\text{SSE}_{(j)}\),回歸平方和為 \(\text{SSR}_{(j)}\),則自變量 \(x_j\) 對回歸的貢獻為
稱上式為 \(x_j\) 的偏回歸平方和。由此構造偏 \(F\) 檢驗統計量
定理 3.4.5
在正態假設下,當原假設 \(H_{0j}:\beta_j = 0\) 成立時,偏 \(F\) 檢驗統計量 \(F_j\) 服從自由度為 \((1,n-p-1)\) 的 \(F\) 分布。
證明:由定理 \(3.4.1\),我們有
在正態假設下,當原假設 \(H_0\) 成立時,由式 \((3.4.5)\)
證畢。
可以證明上式給出的偏 \(F\) 檢驗與 \(t\) 檢驗是一致的,具體有下述定理
定理 3.4.6
對式 \((3.4.9)\) 的偏 \(F\) 檢驗統計量和式 \((3.4.6)\) 的 \(t\) 檢驗統計量有關系式
\[F_j = t_j^2 \]
證明:有
證畢。
當從回歸方程中剔除變元時,回歸平方和減少,殘差平方和增加。反之,往回歸方程中引入變元,回歸平方和增加,殘差平方和減少,且兩者的增減量相等。具體地,根據平方和分解式可得下式關系
3.4.4 擬合優度
擬合優度用於檢驗回歸方程對樣本觀測值的擬合程度。在一元線性回歸中,定義了樣本決定系數 \(r^2 = \text{SSR} / \text{SST}\),在多元線性回歸中,同樣可以定義樣本決定系數為:
樣本決定系數 \(R^2\) 的取值在 \([0,1]\) 區間內,\(R^2\) 越接近 \(1\),表明回歸擬合的效果越好;\(R^2\) 越接近 \(0\),表明回歸擬合的效果越差。與 \(F\) 檢驗相比,\(R^2\) 可以更清楚直觀地反映回歸擬合的效果,但是並不能作為嚴格的顯著性檢驗。
稱上式給出的 \(R\) 為 \(y\) 關於 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 的樣本復相關系數。在兩個變量的簡單相關系數中,相關系數有正負之分,而復相關系數表示的是因變量 \(y\) 與全體自變量之間的線性關系,它的符號不能由某一個自變量的回歸系數的符號確定,因而都取正號。。。
