回归分析
这是一个回归分析的例子。 这个数据集收集了200名高中生的各科成绩,包括science、math、reading 和social studies。 变量female是一个二分类变量,1为女,0为男。
use https://stats.idre.ucla.edu/stat/stata/notes/hsb2
(highschool and beyond (200 cases))
regress science math female socst read
Source | SS df MS Number of obs = 200
-------------+------------------------------ F( 4, 195) = 46.69
Model | 9543.72074 4 2385.93019 Prob > F = 0.0000
Residual | 9963.77926 195 51.0963039 R-squared = 0.4892
-------------+------------------------------ Adj R-squared = 0.4788
Total | 19507.5 199 98.0276382 Root MSE = 7.1482
------------------------------------------------------------------------------
science | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
math | .3893102 .0741243 5.25 0.000 .243122 .5354983
female | -2.009765 1.022717 -1.97 0.051 -4.026772 .0072428
socst | .0498443 .062232 0.80 0.424 -.0728899 .1725784
read | .3352998 .0727788 4.61 0.000 .1917651 .4788345
_cons | 12.32529 3.193557 3.86 0.000 6.026943 18.62364
------------------------------------------------------------------------------
方差分析表
A.Source –这是方差,模型,残差,总计的来源。 总方差被划分为可以用自变量解释的方差部分(模型)和无法用自变量解释的部分(残差)。
B.SS这些是与三个方差源相关的平方和,即总方差(Total)、模型方差(Model)和残差方差(Residual)。这些可以用许多方法计算。从概念上讲,这些公式可以表示为:
- SSTotlal 与均值的偏差的平方和。\(\sum{(Y-\overline Y)}^2\)
- SSResidual 与预测值偏差的平方和。\(\sum{(Y-\widehat Y)}^2\)
- SSModel 通过使用Y的预测值而不仅仅是使用Y的平均值进行预测估计。因此此项数据相当于Y的预测值与平均值之间的平方差异。\(\sum{(\overline Y - \widehat Y)}^2\)
同时,可以从另外一个角度去看,\(SSModel = SSTotal – SSResidual\),另外,发现\(SSModel / SSTotal =0.4892\)与\(R-squared\)的数值一致。\(R-squared\)为自变量解释的方差比例,因此\(R-squared\)可以通过\(SSModel / SSTotal\)计算。
C.DF这些是与方差来源相关的自由度。 总方差具有N-1个自由度。在这个例子总,样本为200,自由度即为\(200-1=199\)。模型自由度为预测变量数\(K-1\),次模型预测变量为4个独立变量(math, female, socst 和 read)和1个常数项(即截距,进行回归的时候可以选择没有截距),则模型的自由度为\(4+1-1=4\),剩余的自由度为\(199-4=195\)。
D.MS此为均方,是平方和除以各自的自由度(DF)。 对于模型来说,\(9543.72 / 4 = 2385.93\);对于残差来说,\(9963.78 / 195 = 51.096\)。这些数都是通过计算得到的,并由此可以计算\(F\)比,来测试模型中预测变量的显著性。
整体模型拟合
E.Number of obs – 分析涉及对象个数。
F. F和Prob > F – \(F =MSModel/MSResidual=46.69\)。 与这个\(F\)值关联的\(P\)值非常小\((0.0000)\)。 将\(P\)值与\(\alpha\)值\((0.01;0.05;0.1)\)比较,通常情况下与\(0.05\)相比较,如果\(P\)值小于\(0.05\),说明自变量组与因变量之间在统计上的显著关系,这组自变量可以用来对因变量进行可靠的预测。需要注意的是,这个\(P\)值代表的是一组自变量整体与因变量的显著关系,单个自变量与因变量的显著关系以及预测能力将在下表阐述。
G.R-squared–R方是可以从自变量(math, female, socst 和read)中预测的因变量(science)的方差比例。这个数值表明\(48.92\%\)的science分数方差可以通过变量math,female,socst和read来预测。需要注意的是,这个也是对关联强度的整体度量,并不反映某个独特的自变量与因变量的关联程度。
H.Adj R-squared –调整后的R方。预测变量添加到模型中会提高自变量解释因变量的能力。即便是R方的增加只是源自样本的偶然变化。调整后的R方目的在于产生一个更真实的估计结果,采用公式\(1-\frac{(1-R_sq)(N-1)}{(N-k-1)}\)来计算,从公式本身看,观测数据越少、自变量越多时R方与调整后的R方差别越大。
i. Root MSE-误差的标准差,是均方残差(或者误差)的平方根。
参数估计
J.scicence-这一栏显示的是顶部的因变量(science)和下边的预测变量(math,female,cocst,read和常数项)。最后一个变量(cons)是常数项,在几何意义上是Y的截距,是拟合的回归线与y轴的交点。
K.Coef.-项的系数,即拟合的回归方程预测变量的系数。预测的回归方程可展示如下:
在本例中,预测的回归方程如下:
预测的回归方程表明,方程中任一项自变量的增加1的单位,预测因变量就会有相对应系数的增加量。但需要注意的时候,需要参考P值,来判断自变量是否显著。
L.Std. Err.是与系数有关的标准误差。标准误差是用来测试参数是否与0 有显著差异。具体的方法是用参数估计值除以标准误差,会得到一个t值。标准误差也可以用来生成系数的置信区间。
M.t and P>|t|-这两个列代表的是t值和双尾检验的P值,是用于检验零假设系数为0的假设。在双尾检验中,需要预设\(\alpha\)值,然后将P值与\(\alpha\)值比较,当P值比\(\alpha\)值小的时候,对应的系数具有统计学意义。在此案例中,socst的p值为0.424明显大于预设的0.05,所以此系数不具有统计学上的意义,故不显著。
N. [95% Conf. Interval]-95%置信区间。这个置信区间代表的是估计的系数的范围,置信区间与P值有一定的关联,如果置信区间包含0,说明对应的系数在统计学意义上不显著。例如socst的置信区间为[-0.073,0.173],包含0,同时P值为0.424明显大于预设的0.05。