回歸分析
這是一個回歸分析的例子。 這個數據集收集了200名高中生的各科成績,包括science、math、reading 和social studies。 變量female是一個二分類變量,1為女,0為男。
use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
regress science math female socst read
Source | SS df MS Number of obs = 200
-------------+------------------------------ F( 4, 195) = 46.69
Model | 9543.72074 4 2385.93019 Prob > F = 0.0000
Residual | 9963.77926 195 51.0963039 R-squared = 0.4892
-------------+------------------------------ Adj R-squared = 0.4788
Total | 19507.5 199 98.0276382 Root MSE = 7.1482
------------------------------------------------------------------------------
science | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
math | .3893102 .0741243 5.25 0.000 .243122 .5354983
female | -2.009765 1.022717 -1.97 0.051 -4.026772 .0072428
socst | .0498443 .062232 0.80 0.424 -.0728899 .1725784
read | .3352998 .0727788 4.61 0.000 .1917651 .4788345
_cons | 12.32529 3.193557 3.86 0.000 6.026943 18.62364
------------------------------------------------------------------------------
方差分析表
A.Source –這是方差,模型,殘差,總計的來源。 總方差被划分為可以用自變量解釋的方差部分(模型)和無法用自變量解釋的部分(殘差)。
B.SS這些是與三個方差源相關的平方和,即總方差(Total)、模型方差(Model)和殘差方差(Residual)。這些可以用許多方法計算。從概念上講,這些公式可以表示為:
- SSTotlal 與均值的偏差的平方和。\(\sum{(Y-\overline Y)}^2\)
- SSResidual 與預測值偏差的平方和。\(\sum{(Y-\widehat Y)}^2\)
- SSModel 通過使用Y的預測值而不僅僅是使用Y的平均值進行預測估計。因此此項數據相當於Y的預測值與平均值之間的平方差異。\(\sum{(\overline Y - \widehat Y)}^2\)
同時,可以從另外一個角度去看,\(SSModel = SSTotal – SSResidual\),另外,發現\(SSModel / SSTotal =0.4892\)與\(R-squared\)的數值一致。\(R-squared\)為自變量解釋的方差比例,因此\(R-squared\)可以通過\(SSModel / SSTotal\)計算。
C.DF這些是與方差來源相關的自由度。 總方差具有N-1個自由度。在這個例子總,樣本為200,自由度即為\(200-1=199\)。模型自由度為預測變量數\(K-1\),次模型預測變量為4個獨立變量(math, female, socst 和 read)和1個常數項(即截距,進行回歸的時候可以選擇沒有截距),則模型的自由度為\(4+1-1=4\),剩余的自由度為\(199-4=195\)。
D.MS此為均方,是平方和除以各自的自由度(DF)。 對於模型來說,\(9543.72 / 4 = 2385.93\);對於殘差來說,\(9963.78 / 195 = 51.096\)。這些數都是通過計算得到的,並由此可以計算\(F\)比,來測試模型中預測變量的顯著性。
整體模型擬合
E.Number of obs – 分析涉及對象個數。
F. F和Prob > F – \(F =MSModel/MSResidual=46.69\)。 與這個\(F\)值關聯的\(P\)值非常小\((0.0000)\)。 將\(P\)值與\(\alpha\)值\((0.01;0.05;0.1)\)比較,通常情況下與\(0.05\)相比較,如果\(P\)值小於\(0.05\),說明自變量組與因變量之間在統計上的顯著關系,這組自變量可以用來對因變量進行可靠的預測。需要注意的是,這個\(P\)值代表的是一組自變量整體與因變量的顯著關系,單個自變量與因變量的顯著關系以及預測能力將在下表闡述。
G.R-squared–R方是可以從自變量(math, female, socst 和read)中預測的因變量(science)的方差比例。這個數值表明\(48.92\%\)的science分數方差可以通過變量math,female,socst和read來預測。需要注意的是,這個也是對關聯強度的整體度量,並不反映某個獨特的自變量與因變量的關聯程度。
H.Adj R-squared –調整后的R方。預測變量添加到模型中會提高自變量解釋因變量的能力。即便是R方的增加只是源自樣本的偶然變化。調整后的R方目的在於產生一個更真實的估計結果,采用公式\(1-\frac{(1-R_sq)(N-1)}{(N-k-1)}\)來計算,從公式本身看,觀測數據越少、自變量越多時R方與調整后的R方差別越大。
i. Root MSE-誤差的標准差,是均方殘差(或者誤差)的平方根。
參數估計
J.scicence-這一欄顯示的是頂部的因變量(science)和下邊的預測變量(math,female,cocst,read和常數項)。最后一個變量(cons)是常數項,在幾何意義上是Y的截距,是擬合的回歸線與y軸的交點。
K.Coef.-項的系數,即擬合的回歸方程預測變量的系數。預測的回歸方程可展示如下:
在本例中,預測的回歸方程如下:
預測的回歸方程表明,方程中任一項自變量的增加1的單位,預測因變量就會有相對應系數的增加量。但需要注意的時候,需要參考P值,來判斷自變量是否顯著。
L.Std. Err.是與系數有關的標准誤差。標准誤差是用來測試參數是否與0 有顯著差異。具體的方法是用參數估計值除以標准誤差,會得到一個t值。標准誤差也可以用來生成系數的置信區間。
M.t and P>|t|-這兩個列代表的是t值和雙尾檢驗的P值,是用於檢驗零假設系數為0的假設。在雙尾檢驗中,需要預設\(\alpha\)值,然后將P值與\(\alpha\)值比較,當P值比\(\alpha\)值小的時候,對應的系數具有統計學意義。在此案例中,socst的p值為0.424明顯大於預設的0.05,所以此系數不具有統計學上的意義,故不顯著。
N. [95% Conf. Interval]-95%置信區間。這個置信區間代表的是估計的系數的范圍,置信區間與P值有一定的關聯,如果置信區間包含0,說明對應的系數在統計學意義上不顯著。例如socst的置信區間為[-0.073,0.173],包含0,同時P值為0.424明顯大於預設的0.05。