1.1 变量间的关系
互有联系的变量之间根据其紧密程度的不同,可以有两种关系,一种确定性关系,一种非确定性关系。
1.1.1 确定性关系
一个变量的变化能完全决定另一个变量的的变化。
比如,银行一年期的存款利率为 \(2.55\%\),存入的本金用 \(x\) 表示,到期的本息用 \(y\) 表示,则有 \(y = x + 2.55\%x\)。
我们用一种更通用的形式表示这种确定性关系。变量 \(y\) 与 \(p\) 个变量 \(x_1\),\(x_2\),...,\(x_p\)之间存在的某种函数关系用下面形式表示(在后文对照一下非确定函数关系的形式表达):
对于完全确定的线性函数关系,各对应点完全落在一条直线上。
1.1.2 非确定性关系
现实中不少情况是,两种事物之间有密切联系,但它们的密切程度并没有达到由一个可以完全确定另一个。
比如,粮食产量 \(y\) 与施肥量 \(x\) 之间有密切联系,在一定范围内,施肥量越多,粮食产量就越高。但是,施肥量并不能完全确定粮食产量,因为粮食产量还与其他因素有关,如降雨量、田间管理水平等。因此粮食产量 \(y\) 与施肥量 \(x\) 之间不存在完全确定的函数关系。
对于非确定的线性函数关系,各对应点并不完全落在一条直线上。
在推断统计中,我们把上述变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系称为变量间的统计关系或相关关系。
1.1.3 回归分析与相关分析的区别
统计学的一大研究对象便是这种关系的规律。现代统计学中关于统计关系的研究已形成两个重要分支,分别是回归分析和相关分析。
回归分析和相关分析都是研究变量间关系的统计学课题。它们的差别主要有以下几点:
-
回归分析中,变量 \(y\) 称为因变量,处于被解释的特殊地位(也叫被解释变量);相关分析中,变量 \(y\) 与变量 \(x\) 处于平等地位,即研究变量 \(y\) 与变量 \(x\) 的密切程度与研究变量 \(x\) 与变量 \(y\) 的密切程度是一回事。
-
回归分析中,因变量 \(y\) 是随机变量,自变量 \(x\) 可以是随机变量,也可以是确定变量;相关分析中,变量 \(y\) 与变量 \(x\) 全是随机变量。在通常回归模型中,我们总假定 \(x\) 是非随机的确定变量。
-
回归分析中,不仅可以揭示变量 \(x\) 对变量 \(y\) 的影响大小,还可以由回归方程进行预测和控制;相关分析中,主要为了刻画两类变量间的线性相关的密切程度。
1.2 回归方程
回归分析是处理变量 \(x\) 与变量 \(y\) 之间关系的一种统计方法和技术。这里说的变量间的关系就是上述的统计关系,即当给定 \(x\) 的值,\(y\) 的值不能确定,只能通过一定概率分布来描述。我们称给定 \(x\) 时 \(y\) 的条件数学期望:
为随机变量 \(y\) 对 \(x\) 的回归函数(或均值回归函数)。上式从平均意义上刻画了变量 \(x\) 和变量 \(y\) 之间的统计规律。
我们称 \(x\) 为自变量,\(y\) 为因变量。
由 \(x\) 预测 \(y\),就是要利用 \(x\),\(y\) 的观察值,即样本观测值
来建立一个函数,当给定值 \(x\) 后,带入此函数中算出一个 \(y\) 值,这个值称为 \(y\) 的预测值。
若我们考虑用一个线性函数来描述商品销售量 \(y\) 与居民收入 \(x\) 之间的关系,即有线性方程:
参数 \(\alpha\),\(\beta\) 需要由样本数据进行估计。以估计值 \(\hat{\alpha}\), \(\hat{\beta}\) 分别代替式 \((1.2.3)\) 中的 \(\alpha\) 和 \(\beta\),得方程:
因式 \((1.2.4)\) 的建立依赖于观察或实验积累的数据 \((1.2.2)\),所以又称式 \((1.2.4)\) 为经验回归方程。相对地把式 \((1.2.3)\) 称为理论回归方程。
理论回归方程是设想把所研究问题的总体中的每一个体的 \((x,y)\) 值都测量,利用全部结果而建立的回归方程,这在实际建模中无法做到。能做到的是从总体中抽取有限个个体作为样本,从样本的信息估计出总体。
1.3 回归模型
1.3.1 回归模型一般形式
如果变量 \(x_1\),\(x_2\),...,\(x_p\) 与随机变量 \(y\) 之间存在着统计关系(或相关关系),通常意味着当确定 \(x_1\),\(x_2\),...,\(x_p\) 的值后,\(y\) 便有相应的概率分布与之对应。可用概率模型描述:
式中,随机变量 \(y\) 称为被解释变量(因变量);变量 \(x_1\),\(x_2\),...,\(x_p\)称为解释变量(自变量);\(\varepsilon\) 为随机误差。由于客观现象是错综复杂的,对一个自然现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识,以及其他客观原因的局限而没有考虑的种种偶然因素。随机误差项主要包括下列因素的影响:
-
由于人们认识的局限或时间、费用、数据质量等的制约未引入回归模型但又对回归被解释变量 \(y\) 有影响的因素。
-
样本数据的采集过程中变量观测值的观测误差。
-
理论模型设定的误差。
-
其他随机因素。
当概率模型式 \((1.3.1)\) 中回归模型为线性函数时,即有
式中,\(\beta_0、\beta_1、\cdots、\beta_p\) 为未知参数,常称为回归系数。
线性回归模型的“线性”是针对未知参数 \(\beta_i\) 而言的。回归解释变量的线性是非本质的,因为解释变量是非线性的,常可以通过变量替换把它转化为线性的。
如果 \((x_{i1}, x_{i2}, \cdots, x_{ip}; y_i)\) 是式 \((1.6)\) 中变量 \((x_{1}, x_{2}, \cdots, x_{p}; y)\) 的一组观测值,则线性回归模型可表示为:
1.3.2 模型基本假设
为估计模型参数,古典线性回归模型通常应满足以下几个基本假设。
-
解释变量 \(x_1, x_2, \cdots, x_p\) 是非随机变量,观测值 \(x_{i1},x_{i2}, \cdots, x_{ip}\) 是常数。
-
等方差及不相关假设条件,该条件称为高斯-马尔可夫(Gauss-Markov)条件,简称G-M条件:
- 正态分布的假定条件为:
- 为了便于数学上的处理,还要求 \(n > p\),即样本量个数多于解释变量的个数。
1.3.3 线性回归模型研究的问题
-
如何根据样本求出回归模型中各个参数的估计。(参数估计)
-
对回归方程以及回归系数的种种假设进行检验。(参数假设检验与非参数假设检验)
-
如何根据回归方程进行预测和控制以及如何进行实际问题的结构分析。
1.4 实际问题回归模型的建立过程
用图表示回归模型的建立过程。
1.4.1 根据研究目的设置指标变量
对一个具体的问题,当研究目的确定之后,被解释变量就容易确定下来,被解释变量一般直接表达研究的目的。而对被解释变量有影响的解释变量的确定就不太容易。
-
一是由于认识上的局限性,可能并不知道对被解释变量有重要影响的因素。
-
二是为了保证模型参数估计的有效性,设置的解释变量之间应该是不相关的,而我们是很难确定哪些变量相关的,哪些变量是不相关的。
-
三是从实际出发,有一个非常重要的变量应该引进,但是在实际中并没有这样的统计数据。(此时,可以考虑用相近的变量代替,或者由其他几个指标复合成一个新的指标)
在选择变量时应注意要与专门领域的专家合作,帮助更好地确定模型变量。
另外,不要认为一个回归模型所涉及的解释变量越多越好。引入变量过多,可能选择了一些与问题无关的变量,还可能由于一些变量相关性很强,它们所反映的信息有较大重叠,从而出现共线性问题。变量过多也会使计算工作量过大,从而计算误差增大,估计的模型参数精度不高。
1.4.2 收集整理统计数据
常用的样本数据分为时间序列数据和横截面数据。
(1) 时间序列数据
时间序列数据就是按时间顺序排列的统计数据。对于收集到的时间序列资料,要特别注意数据的可比性和数据的统计口径问题。如历年的国民收入数据,是否按可比价格计算。中国改革开放前,几十年物价不变,而 \(20\) 世纪 \(80\) 年代初开始,物价几乎直线上涨,那么直接比较价格就不能反映一个国民的收入。如在宏观经济研究中,国内生产总值(GDP)与国民生产总值(GNP)二者在内容上一致,但在计算口径上不同。
时间序列数据容易产生模型中随机误差项的序列相关,这是因为许多经济变量的前后期之间总是有关联的。对于具有随机随机误差项序列相关的情况,就要通过对数据的某种计算整理来消除序列相关性。最常用的处理方法是差分法。
(2) 横截面数据
横截面数据即在同一时间截面上的统计数据。如同一年在不同地块上测量的施肥量与小麦产量实验的统计数据就是横截面数据。
用横截面数据做样本时,容易产生异方差性。这是因为一个回归模型往往涉及众多解释变量,如果其中某一个因素或某一些因素随着解释变量观测值的变化而对被解释变量产生不同的影响,就产生异方差性。
如在研究城镇居民收入与购买消费品的关系时,用 \(x_i\) 表示第 \(i\) 户的收入量,\(y_i\) 表示第 \(i\) 户的购买量。购买回归模型为:
在此模型中,随机项 \(\varepsilon_i\) 就具有不同的方差。因为在购买行为中,低收入家庭购买行为差异性较小,大多购买生活必需品;高收入家庭购买行为差异很大,高档消费品很多,他们选择的余地很大,这样购买物品所花费的差异就比较大。此时称随机项 \(\varepsilon_i\) 具有异方差性。
(3) 其余
统计数据的整理不仅要把一些变量数据进行折算、差分,有时还要把数据进行对数化、标准化等,有时还需剔除个别特别大或特别小的“野值”。当然,有时还需用插值的方法把空缺的数据补齐。
1.4.3 确定理论回归模型的数学形式
收集到所设置的变量的数据后,要确定适当的数学形式来描述变量之间的关系。理论回归模型确立的情况可以大概分为以下几种:
-
建立回归模型时,可以将所有样本点在直角坐标系上画出来,根据点的分布状况选择合适的理论回归模型。
-
更多的是,根据一些之前的理论和研究结果来确定所用回归模型的数学形式。(机理模型)
-
有时无法根据所获信息确定模型的形式,则可以采用不同的形式进行计算机模拟,从不同的模拟结果中选择较好的一个作为理论回归模型。
1.4.4 估计模型参数
模型参数的估计方法中最常用的是普通最小二乘法,它是经典的估计方法。对于不满足模型基本假设的回归问题,人们给出了种种新方法,如岭回归、主成分回归、偏最小二乘回归等,它们本身也都以普通最小二乘法作为基础。除此之外,还有分位数参数估计、贝叶斯参数估计等比较流行的新方法。
1.4.5 模型检验与修改
在模型未知参数估计出来之后,就初步建立了一个回归模型。如果直接使用该模型,做预测、控制和分析,显然是不够的。这个模型是否真正揭示了被解释变量与解释变量之间的关系,必须对模型进行检验才能确定。
对于回归模型,一般需要进行统计检验和模型意义检验。
如果一个回归模型没有通过统计检验,或者通过了统计检验而没有合理的经济意义,就需要对其进行修改。
(1) 统计检验
统计检验通常是对回归方程的显著性检验,以及回归系数的显著性检验,还有拟合优度的检验、随机误差项的序列相关检验、异方差性检验、解释变量的多重共线性检验等。
(2) 模型意义检验
可能会碰到这样一种情况,回归模型经过了一系列统计检验,可就得不到合理的回归模型解释。这有时候是由于样本容量的限制,或多重共线性问题,数据质量问题,或者其他问题。
1.4.6 回归模型应用
当一个问题的回归模型通过了各种统计检验,且模型具有合理的解释,就可以运用这个模型来研究进一步的问题。
回归模型不仅可以解释变量间的因果关系,还可以考虑给定被解释变量值来控制解释变量值,此外回归模型也能用于预测。