回歸分析

這是一個回歸分析的例子。這個數據集收集了200名高中生的各科成績，包括science、math、reading 和social studies。變量female是一個二分類變量，1為女，0為男。

use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))

regress science math female socst read

      Source |       SS       df       MS              Number of obs =     200
-------------+------------------------------           F(  4,   195) =   46.69
       Model |  9543.72074     4  2385.93019           Prob > F      =  0.0000
    Residual |  9963.77926   195  51.0963039           R-squared     =  0.4892
-------------+------------------------------           Adj R-squared =  0.4788
       Total |     19507.5   199  98.0276382           Root MSE      =  7.1482

------------------------------------------------------------------------------
     science |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
        math |   .3893102   .0741243     5.25   0.000      .243122    .5354983
      female |  -2.009765   1.022717    -1.97   0.051    -4.026772    .0072428
       socst |   .0498443    .062232     0.80   0.424    -.0728899    .1725784
        read |   .3352998   .0727788     4.61   0.000     .1917651    .4788345
       _cons |   12.32529   3.193557     3.86   0.000     6.026943    18.62364
------------------------------------------------------------------------------

方差分析表

A.Source –這是方差，模型，殘差，總計的來源。總方差被划分為可以用自變量解釋的方差部分（模型）和無法用自變量解釋的部分（殘差）。

B.SS這些是與三個方差源相關的平方和，即總方差（Total）、模型方差（Model）和殘差方差（Residual）。這些可以用許多方法計算。從概念上講，這些公式可以表示為：

SSTotlal 與均值的偏差的平方和。\(\sum{(Y-\overline Y)}^2\)
SSResidual 與預測值偏差的平方和。\(\sum{(Y-\widehat Y)}^2\)
SSModel 通過使用Y的預測值而不僅僅是使用Y的平均值進行預測估計。因此此項數據相當於Y的預測值與平均值之間的平方差異。\(\sum{(\overline Y - \widehat Y)}^2\)

同時，可以從另外一個角度去看，\(SSModel = SSTotal – SSResidual\),另外，發現\(SSModel / SSTotal =0.4892\)與\(R-squared\)的數值一致。\(R-squared\)為自變量解釋的方差比例，因此\(R-squared\)可以通過\(SSModel / SSTotal\)計算。

C.DF這些是與方差來源相關的自由度。總方差具有N-1個自由度。在這個例子總，樣本為200，自由度即為\(200-1=199\)。模型自由度為預測變量數\(K-1\)，次模型預測變量為4個獨立變量（math, female, socst 和 read）和1個常數項（即截距，進行回歸的時候可以選擇沒有截距），則模型的自由度為\(4+1-1=4\)，剩余的自由度為\(199-4=195\)。

D.MS此為均方，是平方和除以各自的自由度（DF）。對於模型來說，\(9543.72 / 4 = 2385.93\)；對於殘差來說，\(9963.78 / 195 = 51.096\)。這些數都是通過計算得到的，並由此可以計算\(F\)比，來測試模型中預測變量的顯著性。

整體模型擬合

E.Number of obs – 分析涉及對象個數。

F. F和Prob > F – \(F =MSModel/MSResidual=46.69\)。與這個\(F\)值關聯的\(P\)值非常小\((0.0000)\)。將\(P\)值與\(\alpha\)值\((0.01;0.05;0.1)\)比較，通常情況下與\(0.05\)相比較，如果\(P\)值小於\(0.05\)，說明自變量組與因變量之間在統計上的顯著關系，這組自變量可以用來對因變量進行可靠的預測。需要注意的是，這個\(P\)值代表的是一組自變量整體與因變量的顯著關系，單個自變量與因變量的顯著關系以及預測能力將在下表闡述。

G.R-squared–R方是可以從自變量（math, female, socst 和read）中預測的因變量（science）的方差比例。這個數值表明\(48.92\%\)的science分數方差可以通過變量math，female，socst和read來預測。需要注意的是，這個也是對關聯強度的整體度量，並不反映某個獨特的自變量與因變量的關聯程度。

H.Adj R-squared –調整后的R方。預測變量添加到模型中會提高自變量解釋因變量的能力。即便是R方的增加只是源自樣本的偶然變化。調整后的R方目的在於產生一個更真實的估計結果，采用公式\(1-\frac{(1-R_sq)(N-1)}{(N-k-1)}\)來計算，從公式本身看，觀測數據越少、自變量越多時R方與調整后的R方差別越大。

i. Root MSE-誤差的標准差，是均方殘差（或者誤差）的平方根。

參數估計

J.scicence-這一欄顯示的是頂部的因變量（science）和下邊的預測變量（math，female，cocst，read和常數項）。最后一個變量（cons）是常數項，在幾何意義上是Y的截距，是擬合的回歸線與y軸的交點。

K.Coef.-項的系數，即擬合的回歸方程預測變量的系數。預測的回歸方程可展示如下：

\[Y_{predicted}=b_0+b_1*x_1+b_2*x_2+b_3*x_3+b_4*x_4 \]

在本例中，預測的回歸方程如下：

\[science_{predicted}=12.32529+.3893102*math + -2.009765*female+.0498443*socst+.3352998*read \]

預測的回歸方程表明，方程中任一項自變量的增加1的單位，預測因變量就會有相對應系數的增加量。但需要注意的時候，需要參考P值，來判斷自變量是否顯著。

L.Std. Err.是與系數有關的標准誤差。標准誤差是用來測試參數是否與0 有顯著差異。具體的方法是用參數估計值除以標准誤差，會得到一個t值。標准誤差也可以用來生成系數的置信區間。

M.t and P>|t|-這兩個列代表的是t值和雙尾檢驗的P值，是用於檢驗零假設系數為0的假設。在雙尾檢驗中，需要預設\(\alpha\)值，然后將P值與\(\alpha\)值比較，當P值比\(\alpha\)值小的時候，對應的系數具有統計學意義。在此案例中，socst的p值為0.424明顯大於預設的0.05，所以此系數不具有統計學上的意義，故不顯著。

N. [95% Conf. Interval]-95%置信區間。這個置信區間代表的是估計的系數的范圍，置信區間與P值有一定的關聯，如果置信區間包含0，說明對應的系數在統計學意義上不顯著。例如socst的置信區間為[-0.073,0.173]，包含0，同時P值為0.424明顯大於預設的0.05。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 回歸分析 stata基礎（十五）——線性回歸的基本假定、估計回歸系數、擬合系數 ardl模型stata命令_小白學統計_面板數據分析與Stata應用筆記（三） Stata+R: 一文讀懂中介效應分析 stata學習筆記（五）：描述性統計分析數學 - 回歸分析 - 第 1 章回歸分析介紹 Matlab回歸分析回歸分析總結 MATLAB實現回歸分析 LOGISTIC回歸分析