2.1 一元线性回归模型
一元线性回归是描述两个变量之间统计关系的最简单的回归模型,通过该回归模型的建立过程,我们可以了解到回归分析方法的基本统计思想和在实际问题中的应用原理。
2.1.1 一元线性回归模型的数学形式
(1) 一元线性理论回归模型
描述 \(x\) 与 \(y\) 之间线性关系的数学结构式可用下式:
变量 \(y\) 与变量 \(x\) 的关系可以用两部分来描述:一部分是由于 \(x\) 的变化引起 \(y\) 的线性变化,即 \(\beta_0 + \beta_1 x\);另一部分是由其他一切随机因素引起的,记为 \(\varepsilon\)。
式 \((2.1)\) 称为变量 \(y\) 对 \(x\) 的一元线性理论回归模型。一般我们称 \(y\) 为被解释变量(因变量),\(x\) 为解释变量(自变量)。式中,\(\beta_0\) 和 \(\beta_1\) 是未知参数,称 \(\beta_0\) 为回归常数,\(\beta_1\) 为回归系数;\(\varepsilon\) 表示其他随机因素的影响,通常假定 \(\varepsilon\) 满足
对式 \((2.1.1)\) 两端求条件期望,得
称 \((2.1.3)\) 为回归方程。
(2) 一元线性样本回归模型
对研究的某个实际问题,如果获得的 \(n\) 组样本观测值 \((x_1,y_1)、(x_2,y_2)、\cdots、(x_n,y_n)\) 符合模型式 \((2.1.1)\),则
由式 \((2.1.2)\),有
通常假定 \(n\) 组数据是独立观测的,因而 \(\varepsilon_1\)、\(\varepsilon_2\)、\(\cdots\)、\(\varepsilon_n\) 是相互独立的随机变量。\(x_i\) \((i=1,2,\cdots,n)\) 是确定性变量,其值可以精确测量和控制。我们称式 \((2.1.4)\) 为一元线性样本回归模型。
式 \((2.1.1)\) 的理论回归模型与式 \((2.1.4)\) 的样本回归模型是等价的,因而可将两者统称为一元线性回归模型。(理论回归模型描述的是总体,样本回归模型描述的是样本)
对式 \((2.1.4)\) 两边求数学期望和方差,得
式 \((2.1.6)\) 表明随机变量 \(y_1、y_2、\cdots、y_n\) 数学期望不等,方差相等,因此变量 \(y_1\) 、\(y_2\)、\(\cdots\)、\(y_n\) 是独立的随机变量,但并不是同分布的。而 \(\varepsilon_1\)、\(\varepsilon_2\)、\(\cdots\)、\(\varepsilon_n\) 是独立同分布的随机变量。式 \((2.1.6)\) 从平均意义上表达了变量 \(y\) 与变量 \(x\) 的统计规律性。
(3) 一元线性经验回归方程
回归分析主要任务是通过 \(n\) 组样本观测值 \((x_i,y_i)(i=1,2,\cdots,n)\) 对 \(\beta_0\),\(\beta_1\) 进行估计。一般用 \(\hat{\beta}_0\),\(\hat{\beta}_1\) 分别表示 \(\beta_0\),\(\beta_1\) 的估计值。
为 \(y\) 关于 \(x\) 的一元线性经验回归方程。
(4) 一元线性回归模型的进一步假设
实际问题研究中,为方便对参数做区间估计和假设检验,我们假定模型式 \((2.1)\) 中误差项 \(\varepsilon\) 服从正态分布。
此时 \(\varepsilon_1\)、\(\varepsilon_2\)、\(\cdots\)、\(\varepsilon_n\) 是 \(\varepsilon\) 的独立同分布的样本。
在 \(\varepsilon_i\) 服从假定式 \((2.1.9)\) 下,进一步有随机变量 \(y_i\) 服从正态分布。
(5) 一元线性回归模型矩阵表示
将一元线性样本回归模型 \((2.1.4)\) 用矩阵表示。
于是模型式 \((2.1.5)\) 表示为式 \((2.1.12)\),\(I_n\) 表示 \(n\) 阶单位阵。