目 錄
1. σ2 的估計
2. 回歸方程的顯著性檢驗
t 檢驗(回歸系數的檢驗)
F 檢驗(回歸方程的檢驗)
相關系數的顯著性檢驗
樣本決定系數
三種檢驗的關系
一、σ2 的估計
因為假設檢驗以及構造與回歸模型有關的區間估計都需要σ2的估計量,所以先對σ2作估計。
通過殘差平方和(誤差平方和)
(1)
(用到和
,其中
)
又∵ (2)
∴ (3)
其中 為響應變量觀測值的校正平方和。殘差平方和有n-2 個自由度,因為兩個自由度與得到
的估計值
與
相關。
(4)
(公式(4)在《線性回歸分析導論》附錄C.3有證明)
∴ σ2的無偏估計量:
(5)
為殘差均方,
的平方根稱為回歸標准誤差,與響應變量y 具有相同的單位。
因為σ2取決於殘差平方和, 所以任何對模型誤差假設的違背或對模型形式的誤設都可能嚴重破壞σ2的估計值的實用性。因為
由回歸模型殘差算得,稱σ2的估計值是模型依賴的。
二、回歸方程的顯著性檢驗
目的:檢驗 是否真正描述了變量 y 與 x 之間的統計規律性。
假設:正態性假設 (方便檢驗計算)
- t 檢驗
用t 檢驗來檢驗回歸系數的顯著性。采用的假設如下:
原假設 H0 : β1 = 0 (x 與 y 不存在線性關系)
對立假設 H1 : β1 ≠ 0
回歸系數的顯著性檢驗就是要檢驗自變量 x 對因變量 y 的影響程度是否顯著。下面我們分析接受和拒絕原假設的意義。
(1)接受 H0 : β1 = 0 (x 與 y 不存在線性關系)
此時有兩種情況,一種是無論 x 取值如何, y 都在一條水平線上下波動,即,如下圖1,另一種情況為, x 與 y 之間存在關系,但不是線性關系,如圖2。
圖 1
圖 2
(2)拒絕 H0 : β1 = 0 (x 對解釋 y 的方差是有用的)
拒絕原假設也有兩種情況,一種是直線模型就是合適的,如圖 3,另一種情況為存在 x 對 y 的線性影響,也可通過 x 的高階多項式得到更好的結果,如圖 4。
圖 3
圖 4
接下來對其檢驗。
∵ (6)
∴ 當H0 : β1 = 0 成立時,有:
(7)
在零附近波動,構造 t 統計量:
(8)
若原假設H0 : β1 = 0 成立,則 ,計算|t|,
|t| ≥ tα/2 , 拒絕 H0
|t| < tα/2 , 接受 H0
2.F 檢驗(方差分析)
F檢驗用於檢驗回歸方程的顯著性。
方差分析法檢驗回歸顯著性,方差分析以分割響應變量 y 的總變異性為基礎。
∵
∴
∵ ,
∴
∴ (9)
其中 稱為觀測值的校正平方和
或總稱為平方和(SST: sum of squares for total,
, Lyy),其度量了觀測值中總的變異性。刻畫 y 的波動程度。
稱為模型平方和(或回歸平方和),記為SSR(R: regression),
,
。其刻畫由 x 的波動引起的 y 波動的部分。
是殘差平方和(誤差平方和),記為SSE(E: error),
,
。其刻畫了未加控制的因素引起 y 波動的部分。
∴
(10)
下來分析它們的自由度。因為 約束
使
丟掉了一個自由度,所以
個自由度;因為
完全由
一個參數確定,所以
個自由度;因為估計β0與β1時對離差
施加了兩個約束,所以
有n-2個自由度。
∵ 自由度有可加性
∴ (11)
因為總平方和反映因變量 y 的波動程度或稱不確定性,在建立了 y 對 x 的線性回歸后,總平方和SST就分解成回歸平方和SSR與殘差平方和SSE這兩部分,其中SSR是由回歸方程確定的,也就是由自變量 x 的波動引起的,SSE是不能用自變量解釋的波動,是由 x 之外的未加控制的因素引起的。這樣,總平方和SST 中,能夠由自變量解釋的部分為SSR,不能由自變量解釋的部分為SSE,從而,回歸平方和SSR越大,回歸的效果就越好,可以據此構造F 檢驗統計量為
(12)
在正態假設下,原假設H0 : β1 = 0 成立時,,當時
,拒絕原假設。
3.相關系數的顯著性檢驗
因為一元線性回歸方程討論的是變量 x 與變量 y 之間的線性關系,所以變量 x 與 y 之間的相關系數來檢驗回歸方程的顯著性。用相關系數來反應 x 與 y 的線性關系的密切程度。
x 與 y 的簡單相關系數(Pearson 相關系數):
(13)
r的絕對值小於等於1:|r| ≤ 1
根據相關系數的檢驗表,通常當|r| 大於表中α=0.05相應的值時,認為 x 與 y 有顯著的線性關系。
缺點:接近於1的程度與數據組數 n 有關(n 較小時,相關系數的波動較大,|r| 接近於1,n 較大時,|r|易偏小,n 較小時,不能僅憑 r 判定 x 與 y 之間有密切的線性關系)
另外補充一點,Pearson相關系數的適用范圍:
① 兩個變量之間是線性關系,都是連續數據;
② 兩個變量的總體是正態分布,或接近正態分布;
③ 兩個變量的觀測值是成對的,每對觀測值之間相互獨立。
4.樣本決定系數
由公式(10)可知,
越大,線性回歸越好,所以定義樣本決定系數r2: 回歸平方和與總離差平方和之比。
(14)
∵
(用到和
)
∴ (15)
其中最右邊的 r2 表示相關系數的平方。
決定系數 r2 是一個回歸直線與樣本觀測值擬合優度(Goodness of Fit, 指回歸直線對觀測值的擬合程度)的相對指標,反映了因變量的波動中能用自變量解釋的比例。
0 ≤ r2 ≤ 1,r2 越接近於 1 ,擬合優度越好。
那么r2 的值比較小的時候反應了什么情況呢?
r2 小的可能原因:
① 線性回歸不成立,y 與 x 是曲線關系,應用曲線回歸;
② y 與 x 之間符合線性模型,誤差項方差σ2大,導致r2 小(n 很大時,線性回歸顯著)
在對自變量有重復觀測時可以通過檢驗正確區分以上兩種不同情況,或者用殘差分析的方法。
相關系數和樣本決定系數:
相關系數是建立在相關分析的理論基礎上,研究兩個變量 x 與 y 之間的線性相關關系;樣本決定系數是建立在回歸分析的理論基礎之上,研究非隨機變量 x 對 y 的解釋程度。樣本決定系數除掉了相關系數為0或1(|r|=1 or 0)的情況.
5.三種檢驗的關系
對於一元線性回歸來說,回歸系數顯著性的 t 檢驗,回歸方程顯著性的 F 檢驗,相關系數顯著性的 t 檢驗,這三種檢驗是等價的。相關系數顯著性的 t 檢驗與回歸系數顯著性的 t 檢驗是完全相等的,式(12)F統計量則是這兩個 t 統計量的平方。對於一元線性回歸只需要做一種檢驗即可,而對於多元線性回歸,這三種檢驗考慮的問題不同,是三種不同的檢驗,並不等價。