stata:回歸分析


回歸分析

這是一個回歸分析的例子。 這個數據集收集了200名高中生的各科成績,包括science、math、reading 和social studies。 變量female是一個二分類變量,1為女,0為男。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))

regress science math female socst read

      Source |       SS       df       MS              Number of obs =     200
-------------+------------------------------           F(  4,   195) =   46.69
       Model |  9543.72074     4  2385.93019           Prob > F      =  0.0000
    Residual |  9963.77926   195  51.0963039           R-squared     =  0.4892
-------------+------------------------------           Adj R-squared =  0.4788
       Total |     19507.5   199  98.0276382           Root MSE      =  7.1482

------------------------------------------------------------------------------
     science |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        math |   .3893102   .0741243     5.25   0.000      .243122    .5354983
      female |  -2.009765   1.022717    -1.97   0.051    -4.026772    .0072428
       socst |   .0498443    .062232     0.80   0.424    -.0728899    .1725784
        read |   .3352998   .0727788     4.61   0.000     .1917651    .4788345
       _cons |   12.32529   3.193557     3.86   0.000     6.026943    18.62364
------------------------------------------------------------------------------

方差分析表

A.Source –這是方差,模型,殘差,總計的來源。 總方差被划分為可以用自變量解釋的方差部分(模型)和無法用自變量解釋的部分(殘差)。

B.SS這些是與三個方差源相關的平方和,即總方差(Total)、模型方差(Model)和殘差方差(Residual)。這些可以用許多方法計算。從概念上講,這些公式可以表示為:

  • SSTotlal 與均值的偏差的平方和。\(\sum{(Y-\overline Y)}^2\)
  • SSResidual 與預測值偏差的平方和。\(\sum{(Y-\widehat Y)}^2\)
  • SSModel 通過使用Y的預測值而不僅僅是使用Y的平均值進行預測估計。因此此項數據相當於Y的預測值與平均值之間的平方差異。\(\sum{(\overline Y - \widehat Y)}^2\)

同時,可以從另外一個角度去看,\(SSModel = SSTotal – SSResidual\),另外,發現\(SSModel / SSTotal =0.4892\)\(R-squared\)的數值一致。\(R-squared\)為自變量解釋的方差比例,因此\(R-squared\)可以通過\(SSModel / SSTotal\)計算。

C.DF這些是與方差來源相關的自由度。 總方差具有N-1個自由度。在這個例子總,樣本為200,自由度即為\(200-1=199\)。模型自由度為預測變量數\(K-1\),次模型預測變量為4個獨立變量(math, female, socstread)和1個常數項(即截距,進行回歸的時候可以選擇沒有截距),則模型的自由度為\(4+1-1=4\),剩余的自由度為\(199-4=195\)

D.MS此為均方,是平方和除以各自的自由度(DF)。 對於模型來說,\(9543.72 / 4 = 2385.93\);對於殘差來說,\(9963.78 / 195 = 51.096\)。這些數都是通過計算得到的,並由此可以計算\(F\)比,來測試模型中預測變量的顯著性。

整體模型擬合

E.Number of obs – 分析涉及對象個數。

F. FProb > F\(F =MSModel/MSResidual=46.69\)。 與這個\(F\)值關聯的\(P\)值非常小\((0.0000)\)。 將\(P\)值與\(\alpha\)\((0.01;0.05;0.1)\)比較,通常情況下與\(0.05\)相比較,如果\(P\)值小於\(0.05\),說明自變量組與因變量之間在統計上的顯著關系,這組自變量可以用來對因變量進行可靠的預測。需要注意的是,這個\(P\)值代表的是一組自變量整體與因變量的顯著關系,單個自變量與因變量的顯著關系以及預測能力將在下表闡述。

G.R-squared–R方是可以從自變量(math, female, socstread)中預測的因變量(science)的方差比例。這個數值表明\(48.92\%\)的science分數方差可以通過變量math,female,socst和read來預測。需要注意的是,這個也是對關聯強度的整體度量,並不反映某個獨特的自變量與因變量的關聯程度。

H.Adj R-squared –調整后的R方。預測變量添加到模型中會提高自變量解釋因變量的能力。即便是R方的增加只是源自樣本的偶然變化。調整后的R方目的在於產生一個更真實的估計結果,采用公式\(1-\frac{(1-R_sq)(N-1)}{(N-k-1)}\)來計算,從公式本身看,觀測數據越少、自變量越多時R方與調整后的R方差別越大。

i. Root MSE-誤差的標准差,是均方殘差(或者誤差)的平方根。

參數估計

J.scicence-這一欄顯示的是頂部的因變量(science)和下邊的預測變量(math,female,cocst,read和常數項)。最后一個變量(cons)是常數項,在幾何意義上是Y的截距,是擬合的回歸線與y軸的交點。

K.Coef.-項的系數,即擬合的回歸方程預測變量的系數。預測的回歸方程可展示如下:

\[Y_{predicted}=b_0+b_1*x_1+b_2*x_2+b_3*x_3+b_4*x_4 \]

在本例中,預測的回歸方程如下:

\[science_{predicted}=12.32529+.3893102*math + -2.009765*female+.0498443*socst+.3352998*read \]

預測的回歸方程表明,方程中任一項自變量的增加1的單位,預測因變量就會有相對應系數的增加量。但需要注意的時候,需要參考P值,來判斷自變量是否顯著。

L.Std. Err.是與系數有關的標准誤差。標准誤差是用來測試參數是否與0 有顯著差異。具體的方法是用參數估計值除以標准誤差,會得到一個t值。標准誤差也可以用來生成系數的置信區間。

M.t and P>|t|-這兩個列代表的是t值和雙尾檢驗的P值,是用於檢驗零假設系數為0的假設。在雙尾檢驗中,需要預設\(\alpha\)值,然后將P值與\(\alpha\)值比較,當P值比\(\alpha\)值小的時候,對應的系數具有統計學意義。在此案例中,socst的p值為0.424明顯大於預設的0.05,所以此系數不具有統計學上的意義,故不顯著。

N. [95% Conf. Interval]-95%置信區間。這個置信區間代表的是估計的系數的范圍,置信區間與P值有一定的關聯,如果置信區間包含0,說明對應的系數在統計學意義上不顯著。例如socst的置信區間為[-0.073,0.173],包含0,同時P值為0.424明顯大於預設的0.05。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM