2.4 回歸方程的顯著性檢驗
方程 \(\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x\) 是否真正描述了變量 \(y\) 與變量 \(x\) 之間的統計規律性,還需對回歸方程進行統計檢驗。以下檢驗內容若無特別聲明,都是在正態假設 \((1.3.4)\) 下進行的。
由於假設檢驗的回歸方程都是一元線性回歸,因此對回歸系數的顯著性檢驗與對回歸方程的顯著性檢驗一致。
檢驗的原假設是:
檢驗的對立假設是:
2.4.1 \(F\) 檢驗
\(F\) 檢驗是根據平方和分解式,直接從回歸效果檢驗回歸方程的顯著性。平方和分解式為:
我們詳細解釋下各項:
-
\(\sum_{i=1}^n (y_i - \overline{y})^2\) 稱為總離差平方和,簡記為 \(\text{SST}\)。
-
\(\sum_{i=1}^n (\widehat{y}_i - \overline{y})^2\) 稱為回歸平方和,簡記為 \(\text{SSR}\)。
-
\(\sum_{i=1}^n (y_i - \widehat{y}_i)^2\) 稱為殘差平方和,簡記為 \(\text{SSE}\)。
因而平方和分解式可以簡寫為:
總離差平方和 \(\text{SST}\) 反映因變量 \(y\) 的波動程度或稱不確定性。在建立了 \(y\) 對 \(x\) 的線性回歸方程后,總離差平方和 \(\text{SST}\) 可分解成回歸平方和 \(\text{SSR}\) 和 殘差平方和 \(\text{SSE}\)。
\(\text{SSR}\) 由回歸方程確定,也就是由自變量 \(x\) 的波動引起,\(\text{SSE}\) 是不能由自變量解釋的波動,是由 \(x\) 之外的未加控制的因素引起的。因此,回歸平方和 \(\text{SSR}\) 越大,回歸效果越好,據此構造 \(F\) 檢驗統計量如下:
定理 2.4.1
當原假設 \(H_0\) 成立時,式 \((2.4.5)\) 構造的 \(F\) 檢驗統計量服從自由度為 \((1,n-2)\) 的 \(F\) 分布。
證明:
考慮回歸平方和 \(\text{SSR}\)
當原假設 \(H_0\) 成立時,由式 \((2.3.7)\),可知對回歸平方和有
考慮殘差平方和 \(\text{SSE}\),由定理 \(3.4.2\) 可得
又由定理 \(3.4.2\) 可知 \(\text{SSE}\) 和 \(\text{SSR}\) 是相互獨立的,故有
證畢。
正態假設下,當原假設 \(H_0\) 成立時,\(F\) 服從自由度為 \((1,n-2)\) 的 \(F\) 分布。當 \(F\) 值大於臨界值 \(F_{\alpha}(1,n-2)\) 時,拒絕 \(H_0\),說明回歸方程顯著,\(x\) 與 \(y\) 有顯著的線性關系。也可以根據 \(P\) 值做檢驗,具體檢驗過程可以在方差分析表中進行。如下表所示:
2.4.2 \(t\) 檢驗
回歸分析中,\(t\) 檢驗用於檢驗回歸系數的顯著性。
回歸系數的顯著性檢驗就是檢驗自變量 \(x\) 對因變量 \(y\) 的影響程度是否顯著。比如,若檢驗后發現原假設 \(H_0\) 成立,則自變量 \(x\) 的變化對因變量 \(y\) 沒有真正的影響。
由於 \(\hat{\beta}_1 \sim N(\beta_1, \frac{\sigma^2}{L_{xx}})\),因此當原假設 \(H_0\) 成立時,有
此時 \(\hat{\beta}_1\) 在 \(0\) 附近波動,構造 \(t\) 統計量
上式中,
式 \((2.4.8)\) 是 \(\sigma^2\) 的無偏估計,稱 \(\hat{\sigma}\) 為回歸標准差。
定理 2.4.2
當原假設 \(H_0\) 成立時,式 \((2.4.7)\) 構造的 \(t\) 檢驗統計量服從自由度為 \(n-2\) 的 \(t\) 分布。
證明:當原假設 \(H_0\) 成立時,有
由定理 \(3.4.2\) 可得
證畢。
當原假設 \(H_0\) 成立時,式 \((2.4.7)\) 構造的 \(t\) 統計量服從自由度為 \(n-2\) 的 \(t\) 分布。我們給定顯著性水平 \(\alpha\),雙側檢驗的臨界值為 \(t_{\alpha/2}\)。
-
當 \(\left| t \right| \geqslant t_{\alpha/2}\) 時,拒絕原假設 \(H_0\),認為 \(\beta_1\) 顯著不為 \(0\)。
-
當 \(\left| t \right| < t_{\alpha/2}\) 時,接受原假設 \(H_0\),認為 \(\beta_1\) 顯著為 \(0\)。
2.4.3 相關系數顯著性檢驗
由於一元線性回歸方程討論的是變量 \(y\) 與變量 \(x\) 之間的線性關系,所以可以用變量 \(x\) 與 變量 \(y\) 之間的相關系數來檢驗回歸方程的顯著性。設 \((x_i,y_i)\) 是 \(n\) 組樣本觀測值,我們稱
需要指出,相關系數有一個明顯的缺點:相關系數接近 \(1\) 的程度與數據組數 \(n\) 有關。這容易給我們一種假象。因此當 \(n\) 較小時,相關系數的絕對值容易接近 \(1\);當 \(n\) 較大時,相關系數的絕對值容易偏小。特別是當 \(n=2\) 時,相關系數的絕對值總為 \(1\)。因此在樣本量 \(n\) 較小時,我們僅憑相關系數較大就說變量 \(x\) 與 \(y\) 之間存在密切的線性關系,就顯得過於草率。在“多元線性回歸”中,會更詳細地討論該問題。
對相關系數可以構造檢驗表,表中是相關系數絕對值的臨界值。通常如果 \(|r|\) 大於表中 \(\alpha = 5%\) 對應的值,但小於表中 \(\alpha = 1%\) 對應的值,稱 \(x\) 與 \(y\) 有顯著的線性關系;如果 \(|r|\) 大於表中 \(\alpha = 1%\) 對應的值,稱 \(x\) 與 \(y\) 有高度顯著的線性關系;如果 \(|r|\) 小於表中 \(\alpha = 5%\) 對應的值,稱 \(x\) 與 \(y\) 沒有明顯的線性關系。
我們稱 \(r\) 為簡單相關系數,簡稱相關系數。相關系數 \(r\) 表示了 \(x\) 與 \(y\) 的線性關系的密切程度。我們可以構造檢驗統計量:
可以證明上述統計量 \(t\) 服從自由度為 \(n-2\) 的 \(t\) 分布。給定顯著性水平 \(\alpha\),當 \(|t| > t_{\alpha / 2}(n-2)\) 時,拒絕原假設,認為 \(y\) 與 \(x\) 的簡單回歸系數顯著不為 \(0\);否則接受原假設,認為 \(y\) 與 \(x\) 的簡單回歸系數顯著為 \(0\)。
式 \((2.4.9)\) 的相關系數 \(r\) 是用樣本計算得到的,也稱為樣本相關系數。假設我們觀測了變量 \((x,y)\) 的所有取值,此時計算得到的相關系數稱為總體相關系數,記作 \(\rho\),它反映了兩變量之間的真實(線性)相關程度。樣本相關系數 \(r\) 是總體相關系數 \(\rho\) 的估計值,因此存在誤差。
一般來說,可將兩變量間相關程度的強弱分為以下幾個等級:
-
當 \(|\rho| \geqslant 0.8\) 時,視為高度相關。
-
當 \(0.5 \leqslant |\rho| < 0.8\) 時,視為中度相關。
-
當 \(0.3 \leqslant |\rho| < 0.5\) 時,視為低度相關。
-
當 \(0 \leqslant |\rho| < 0.3\) 時,表明兩變量之間的相關程度極弱。
-
當 \(\rho = 0\) 時,視為兩變量不相關。
實際應用中我們需要注意以下幾點:
-
我們往往只能得到樣本相關系數 \(r\),而無法得到總體相關系數 \(\rho\)。用樣本相關系數 \(r\) 判定兩變量間相關程度的強弱時一定要注意樣本量的大小,只有當樣本量較大時用樣本相關系數 \(r\) 判定兩變量間相關程度的強弱才能令人信服。
-
要正確區分相關系數顯著性檢驗與相關程度強弱的關系,相關系數的 \(t\) 檢驗顯著只是表明總體相關系數 \(\rho\) 顯著不為 \(0\),並不具體表示相關程度的強弱。比如,如果 \(A\),\(B\) 兩位同學,\(A\) 同學計算出 \(r=0.8\),但是顯著性檢驗沒有通過;\(B\) 同學計算出 \(r=0.1\),但該相關系數高度顯著。而這兩位同學的答案有可能都正確,造成差異的具體原因是樣本量。觀察檢驗統計量 \(t\) 的表示式 \((2.4.10)\),可以看到 \(t\) 值不僅與樣本相關系數 \(r\) 有關,而且與樣本量 \(n\) 有關,對同一個相關系數 \(r\),樣本量 \(n\) 大時 \(|t|\) 就越大,樣本量 \(n\) 小時 \(|t|\) 就越小。
2.4.4 三種檢驗關系
有三種檢驗模型:回歸系數的 \(t\) 檢驗、回歸方程的 \(F\) 檢驗、相關系數的顯著性檢驗。
定理 2.4.3
對於一元線性回歸,這三種檢驗的結果完全一致。可以證明,回歸系數的 \(t\) 檢驗與相關系數的顯著性檢驗是完全等價的,即式 \((2.4.7)\) 與式 \((2.4.10)\) 是相等的,而 \((2.4.5)\) 的 \(F\) 統計量則是這 \(t\) 統計量的平方。
證明:先證明兩個 \(t\) 檢驗統計量是相等的。
上式最后一個等式用了下一節介紹的決定系數。
在定理 \(2.4.1\) 證明過程可以得到回歸平方和 \(\text{SSR} = L_{xx} \hat{\beta}_1^2\)再證明 \(F\) 統計量是 \(t\) 統計量的平方。
證畢。
注意,對於多元線性回歸,這三種檢驗所考慮的問題已有本質的不同,所以並不等價,分別是三種不同的檢驗。
2.4.5 決定系數
我們知道,在總離差平方和中回歸平方和所占的比重越大,則線性回歸效果越好,說明回歸直線與樣本觀測值的擬合優度越好;如果殘差平方和所占的比重大,則回歸直線與樣本觀測值擬合得並不理想。
把回歸平方和與總離差平方和之比定義為決定系數,也稱為判定系數,記為 \(r^2\)。
由關系式
可以證明式 \((2.4.11)\) 的 \(r^2\) 正好是式 \((2.4.9)\) 中相關系數 \(r\) 的平方。即
決定系數 \(r^2\) 是一個反映回歸直線與樣本觀測值擬合優度的相對指標,是因變量的變異中能用自變量解釋的比例。其數值在 \(0-1\) 之間,可用百分數表示。如果決定系數 \(r^2\) 接近 \(1\),說明因變量不確定性的絕大部分能用回歸方程解釋,回歸方程擬合優度較好;反之,如果 \(r^2\) 不大,說明回歸方程的效果不好,應進行修改,可以考慮增加新的自變量或者使用曲線回歸。
注意:
-
決定系數隨自變量的增加而增加。
-
決定系數的值與 \(n\) 有關。
-
決定系數大並不保證自變量 \(x\) 與因變量 \(y\) 的關系是線性的。
需注意以下幾個方面:
-
第一,當樣本量較小時,此時即使得到一個較大的決定系數,這個決定系數也很可能是虛假現象。為此,可以結合樣本量和自變量個數對決定系數進行調整,計算調整的決定系數。具體計算在之后章節會介紹。
-
第二,即使樣本量並不小,決定系數很大,也不能肯定自變量與因變量之間的關系就是線性的,這是因為有可能曲線回歸的效果更好。尤其是當自變量的取值范圍很窄時,線性回歸的效果通常較好,但這樣的線性回歸方程是不能用於外推預測的。可以用模型失擬檢驗來判定因變量與自變量之間的真實函數關系到底是線性關系還是曲線關系,如果是曲線關系到底是哪一種曲線關系。
-
第三,當計算出一個很小的決定系數時,此時無論回歸方程顯著性檢驗結果是否顯著,這時都應該嘗試改進回歸的效果。