简单回归模型
相关程度的度量
回顾在概率论与数理统计中,我们常常使用相关系数去度量随机变量 \(X\) 和 \(Y\) 之间的线性相关程度:
总体线性相关系数
样本线性相关系数
在使用相关系数时,我们需要注意以下几点:
-
相关系数只反映变量间的线性相关程度,不能说明非线性相关关系;
-
样本相关系数是总体相关系数的样本估计值,由于抽样波动,样本相关系数是个随机变量,其统计显著性有待检验;
-
相关系数只能反映线性相关程度,不能确定因果关系。
在计量经济学中,利用相关系数单纯地发现两个或多个变量间具有某种联系,这样的结论是很难令人信服和满意的。我们常常关心的是一个变量对另一个变量之间的因果关系,以及隐藏在随机性后面的统计规律性,于是我们需要引入回归分析的方法。
回归分析的研究对象是具有相关关系的变量,研究目的是寻求它们之间客观存在的依赖关系。我们将从一元线性回归模型开始讨论,大致思路将按照模型设定、基本假设、参数估计、假设检验的顺序展开,并逐渐延伸。
简单线性回归模型
简单回归模型可以用来研究两个变量之间的关系。我们直接从概念引入,然后再对其细节逐一解释。
注意辨析以下几个概念:
- 总体回归函数(PRF)
- 总体回归模型(PRM)
- 样本回归函数(SRF)
- 样本回归模型(SRM)
线性的含义:\(y\) 和 \(x\) 之间并不一定存在线性关系,但是,只要通过转换可以使 \(y\) 的转换形式和 \(x\) 的转换形式存在相对于参数的线性关系,该模型即称为线性模型。
随机干扰项:在总体回归模型中,随机干扰项 \(u\) 是一个不可观测的随机变量,代表了除了 \(x\) 之外可以影响 \(y\) 的因素。其重要程度在于随机干扰项 \(u\) 的性质往往决定着计量方法的选择,在后续的内容中我们将对这些方法逐一涉及。
简单线性回归的基本假定
为什么要作基本假定?
回归分析的主要目的是通过样本回归模型尽可能准确的估计总体回归模型。由于我们在模型中引入了随机扰动项,只有对随机扰动的分布作出假定,才能确定所估计参数的分布性质,也才可能进行假设检验和区间估计。在这里我们仅介绍必要的模型假设,关于线性回归基本假设的严格定义,以及涉及参数估计和假设检验的推导过程将在多元回归分析部分展开详述。
-
条件零均值:\({\rm E}(u_i|x)=0\) ,其含义为在给定解释变量 \(x\) 的条件下,随机误差项的均值为 \(0\) ,即不包含任何系统的趋势。利用全期望公式可以推导出无条件零均值:\({\rm E}(u_i)={\rm E}\left[{\rm E}(u_i|x)\right]=0\) 。
-
同方差:\({\rm Var}(u_i|x)=\sigma^2\) ,其含义为在给定解释变量 \(x\) 的条件下,被解释变量 \(y_i\) 在其均值附近的波动程度是一致的。
-
序列无关:\({\rm Cov}(u_i,\,u_j|x)=0\ , \ \ i\neq j\) ,其含义为在给定解释变量 \(x\) 的条件下,不同次的观测是彼此不相关的。
-
正态性:\(u_i|x\sim N(0,\,\sigma^2)\) 。正态性假设的提出旨在为区间估计和假设检验提供服务。事实上,正态性假定不影响对参数的点估计,只有在确定参数的统计分布时才有所需要。在正态性假定下,可以得到 \(y|x\sim N(\beta_0+\beta_1x,\,\sigma^2)\) 。
普通最小二乘法
我们称样本回归函数中的 \(\hat{y}\) 为被解释变量的拟合值,理想的估计方法应该使得样本理论值 \(y_i\) 和拟合值 \(\hat{y}_i\) 的差距(即残差 \(e_i=\hat{u}_i\) )越小越好。由于 \(e_i\) 可正可负,所以我们取其平方和的最小值作为拟合的目标。
基本思想——最小化残差平方和:
取偏导数为 \(0\) 可以 OLS 估计值的一阶条件:
求解一阶条件即可得到回归系数的 OLS 估计:
给出 \(\sigma^2\) 的 OLS 估计(不作证明):
注意,这里的 \(\hat\sigma^2\) 是 \(\sigma^2\) 的无偏估计,但 \(\hat\sigma\) 仅是 \(\sigma\) 的一致估计而非无偏估计。
OLS 估计的代数性质
根据 OLS 估计值的一阶条件,我们可以推导出 OLS 估计值及其相关统计量的一些有用的代数性质。这些代数性质在我们后面计算总变差的分解和定义拟合优度时会起到很大的作用。
(1) OLS 残差和及其样本均值都为零。
(2) 解释变量和 OLS 残差的样本协方差为零。
(3) 点 \((\bar{x},\,\bar{y})\) 总在 OLS 回归线上。
总变差的分解
首先我们先定义总变差,即总平方和(Total Sum of Squares),伍德里奇将其缩写为 \(\rm SST\) ,在其他的一些教材中也写作 \(\rm TSS\) 。 \(\rm SST\) 度量了 \(y_i\) 在样本中的分散程度,可以发现如果我们将 $ \rm SST$ 除以 \(n-1\) 便得到了 \(y_i\) 的样本方差:
类似的,我们定义回归平方和(Explained Sum of Squares)用来度量 \(\hat{y}_i\) 的样本波动,在这里我们继续沿用伍德里奇的写法,记为 \({\rm SSE}\) :
最后我们定义残差平方和(Residual Sum of Squares)用来度量残差 \(e_i\) 的样本波动,简记为 \({\rm SSR}\) :
这里的缩写方式对于不同的教材和作者有着不同的习惯,在不同的计量经济学软件中也有不同的表示,在本篇笔记中我们仅参考伍德里奇在《计量经济学导论》中的写法,希望读者谅解。
关于总变差的分解,其含义为:\(y\) 的总波动总能表示成能解释的波动和不能解释的波动之和,即
利用上述 OLS 的代数性质,给出证明:
拟合优度检验
通过 OLS 估计我们可以得到样本回归函数 \(\hat{y}=\hat\beta_0+\hat\beta_1 x\) ,也可以称为样本回归线。现在我们想要计算出一个数值,用以概括回归线对数据拟合的程度是好是坏,即引入拟合优度的概念。根据之前的总变差分解公式,我们用回归平方和占 \(y\) 的总变差的比例来判断样本回归线与样本观测值的拟合优度,用 \(R^2\) 来表示,称之为可决系数:
可能会有这样一个疑问:既然 \({\rm SSR}\) 反映了样本观测值与估计值偏离的大小,可否直接用它作为拟合优度检验的统计量?事实上,检验统计量一般应选择相对量而不用绝对量,而 \({\rm SSR}\) 的大小和样本容量 \(n\) 的关系很大,样本容量小的回归方程肯定有更小的残差平方和,不能因此而判断模型的拟合优度较好。
根据以上定义,我们可以概括可决系数 \(R^2\) 的特点如下:
-
\(R^2\) 越大,模型的拟合优度越好;
-
取值范围: \(0\leq R^2 \leq 1\) ;
-
\(R^2\) 是随抽样而变动的随机变量;
-
\(R^2\) 不因变量 \(y\) 或 \(x\) 的单位变化而改变。
但使用可决系数 \(R^2\) 时应注意以下几点:
-
可决系数 \(R^2\) 只是说明模型中的所有解释变量对因变量的联合影响程度,特别在多元回归模型中, \(R^2\) 不能说明模型中每个解释变量的影响程度。
-
在模型中加入新的解释变量会使得 \(R^2\) 增大,因此基于 \(R^2\) 的大小来对解释变量进行筛选可能会导致一些不合理的模型。
-
如果建模的目的只是为了预测因变量的值,而不是为了得到符合经济意义的估计回归系数,一般可考虑有较高的可决系数。
参数的统计分布
变量的显著性检验用来对模型中被解释变量与解释变量之间的线性关系是否显著成立做出推断,可以弥补 \(R^2\) 不能解释每个变量的影响程度的不足。在这里我们只讨论斜率参数的估计 \(\hat\beta_1\) 的统计分布。
在满足基本假设的情况下,我们可以推导出 \(\hat\beta_1\) 的概率分布:
在这里我们先给出结论,其推导过程我们在多元回归分析的部分引入严格意义上的经典假设和高斯-马尔科夫定理之后进行证明。
对 \(\hat\beta_1\) 的概率分布进行标准变换即可得到:
其中,\({\rm sd}(\hat\beta_1)\) 表示 \(\beta_1\) 的标准差:
但需要满足一个前提,即 \(\sigma\) 是一个已知的常数。若 \(\sigma\) 未知,我们需要用 \(\hat\sigma\) 代替,此时计算得到的统计量我们称之为标准误(standard error),即
进而我们用可以计算的 \(\hat\beta_1\) 的标准误代替不可计算的标准差去构造我们的检验统计量,但此时 \(\dfrac{\hat\beta_1-\beta_1}{{\rm se}(\hat\beta_1)}\) 将不再服从标准正态分布,而是 \(t\) 分布:
其中 \(n\) 为样本容量, \(n-2\) 为自由度。
变量的显著性检验
在已知统计量的分布之后,我们可以进行下述的假设检验过程。
提出假设:
构造 \(t\) 统计量:
给定显著性水平 \(\alpha\),如果
则称 \(t\) 统计量在 \(\alpha\) 的显著性水平下显著,拒绝原假设。
当然我们还可以使用 \(p\) 值。 \(p\) 值是基于既定的样本数据所计算的统计量,是拒绝原假设的最低显著性水平:设由样本算出检验统计量 \(T\) 的值为 \(t_0\) ,则
我们可以理解为当 \(p<\alpha\) 时,\(p\) 值越小,越能拒绝原假设。
进而我们讨论区间估计问题。我们曾经学过置信区间和假设检验之间的联系,即参数的置信区间与假设检验所得到的接受域相同。因此,我们在以上统计分布的基础上,可以计算 \(\beta_1\) 的置信区间。
在 \(\alpha\) 的显著性水平下,置信度为 \((1-\alpha)\) ,可以写出假设检验的接受域为:
因此可以计算出 \(\beta_1\) 的置信区间为:
根据区间估计和假设检验的关系,我们还有结论:如果 \(0\) 落入了 \(\beta_1\) 的置信区间的内部,则 \(\beta_1\) 一定是不显著的。
对数函数形式
之前我们解释了线性模型中线性的含义,即 \(y\) 的转换形式和 \(x\) 的转换形式存在相对于参数的线性关系。很容易想到同一变量在不同的函数形式下,模型的估计参数具有不同的经济意义。在这里我们总结了一种特殊的线性模型——具有对数函数形式的线性模型,主要包括一种双对数线性模型和两种半对数线性模型。
双对数线性模型:
-
双对数线性模型估计得到的参数是该变量的弹性;
-
\(x\) 增加 \(1\%\) ,\(y\) 会增加 \(β_1\%\) 。
半对数线性模型
-
\(\alpha_1\)表示 \(x\) 变化 \(1\%\) 导致 \(y\) 绝对量的变化量;
-
\(x\) 增加 \(1\%\),\(y\) 会增加 \(\alpha_1/100\) 个单位;
-
\(\beta_1\) 表示 \(x\) 的变化 \(1\) 单位导致 \(y\) 变化的百分比;
-
\(x\) 增加 \(1\) 单位,\(y\) 会增加 $100\beta_1% $ ;
-
特别地,如果在此半对数模型式中 \(x\) 取为 \(t\)(年份),变量 \(t\) 按时间顺序依次取值为 \(1,2,...,T\),则 \(t\) 的系数度量了 \(y\) 的年均增长速度,因此,这类半对数模型又称为增长模型。