3.2 回归参数的估计
与一元线性回归类似,我们需要对回归参数进行估计。估计的方法一般有两种,最小二乘估计和最大似然估计。
3.2.1 回归参数的普通最小二乘估计
多元线性回归方程未知参数 \(\beta_0\),\(\beta_1\),\(\cdots\),\(\beta_p\) 仍然可以采用最小二乘估计。对于式 \((3.1.5)\) 表示的样本回归模型 \(\bm{y} = X \bm{\beta} + \bm{\varepsilon}\),所谓最小二乘法,就是寻找 \(\hat{\beta}_0\),\(\hat{\beta}_1\),\(\cdots\),\(\hat{\beta}_p\) 使离差平方和最小。
依照式 \((3.2.1)\) 求出的 \(\hat{\beta}_0\),\(\hat{\beta}_1\),\(\cdots\),\(\hat{\beta}_p\) 就称为 \(\beta_0\),\(\beta_1\),\(\cdots\),\(\beta_p\) 的最小二乘估计。
从式 \((3.2.1)\) 中求 \(\hat{\beta}_0\),\(\hat{\beta}_1\),\(\cdots\),\(\hat{\beta}_p\) 是一个求极值问题,由于 \(Q\) 是关于 \(\beta_0\),\(\beta_1\),\(\cdots\),\(\beta_p\) 的非负二次函数,因而最小值总是存在,由费马引理,极值点必须满足下列方程组
以上方程组经整理后,得出用矩阵形式表示的正规方程组
移项得
当 \(X'X\) 可逆时,即得回归参数的最小二乘估计
得到了经验回归方程。
3.2.3 回归值与残差
(1) 回归值
在求出回归参数的最小二乘估计后,可以用经验回归方程 \((3.2.5)\) 计算因变量的回归值与残差。
称上式为观测值 \(y_i\) 的回归拟合值,简称回归值或拟合值。
类似地,称向量 \(\hat{\bm{y}}=X \hat{\bm{\beta}}=(\hat{y}_1,\cdots,\hat{y}_n)'\) 为因变量向量 \(\bm{y} = (y_1, \cdots, y_n)'\) 的回归值。由式 \((3.2.4)\) 可得
由式 \((3.2.7)\) 可以看到,矩阵 \(X (X'X)^{-1} X'\) 的作用是把因变量向量 \(\bm{y}\) 变为拟合值向量 \(\hat{\bm{y}}\),从形式上看是给 \(\bm{y}\) 带上了一顶“帽子”,因而形象地称矩阵 \(X (X'X)^{-1} X'\) 为帽子矩阵,并记为 \(H\),于是有
关于帽子矩阵,我们详细地做一些讨论。
定理 3.2.1 帽子矩阵的性质
- 显然帽子矩阵 \(H\) 是 \(n\) 阶对称矩阵,同时还是幂等矩阵,即有
\[H' = H, \quad H^2 = H \]
- 帽子矩阵 \(H\) 也是一个投影矩阵,从代数学观点看,\(\bm{\hat{y}}\) 是 \(\bm{y}\) 在自变量 \(X\) 生成的空间上的投影,这个投影过程就是把 \(\bm{y}\) 左乘矩阵 \(H\),因此将 \(H\) 称为投影阵,且具有投影阵的一般性质
\[(I - H)' =I - H, \quad (I - H)^2 = I - H \]
- 由对称幂等阵的性质,帽子矩阵 \(H\) 的秩和迹相等,且有
\[\text{rank} (H) = \text{tr} (H)= p+1 \]
- 对设计矩阵 \(X\) 做分块 \(X = \begin{bmatrix}\bm{1}_n& X^* \end{bmatrix}\),对帽子矩阵 \(H\) 有下式
\[H \bm{1}_n= \bm{1}_n, \quad H X^*= X^* \]
证明:证明帽子矩阵的第三点性质,根据迹的性质 \(\text{tr}(A B) = \text{tr}(B A)\),有
再证明帽子矩阵第四点性质,由
可得
证毕。
(2) 残差
定义 \(y_i\) 的残差
称 \(\bm{e} = (e_1, \cdots, e_n)' = \bm{y} -\hat{\bm{y}}\) 为回归残差向量。将 \(\hat{\bm{y}} = H \bm{y}\) 带入得,
记 \(\text{cov} (\bm{e}, \bm{e}) = (\text{cov}(e_i, e_j))_{n\times n}\) 为残差向量 \(\bm{e}\) 的协方差阵,或称为方差阵,记为 \(D(\bm{e})\),因而
由式 \((3.2.2)\) 可知,残差满足关系式
上式说明残差平均值为 \(0\),残差对每个自变量的加权平均值为 \(0\)。式 \((3.2.10)\) 用矩阵表示为
归纳残差的各种性质如下:
定理 3.2.3 残差的性质
- 残差本身是样本的函数,是一个统计量,因此可视为随机向量,可以考虑协方差。令帽子矩阵 \(H\) 的主对角元素为 \(h_{ii}\)
\[\text{cov} (\bm{e}, \bm{e})= D(\bm{e}) = \sigma^2(I - H), \quad \text{var} (e_i) = D(e_i) = (1-h_{ii}) \sigma^2 \]
- 将式 \((3.2.10)\) 表成矩阵形式有
\[X' \bm{e} = 0 \]
- 考虑残差的平方和 \(\text{SSE}\),有
\[E(\sum_{i=1}^n e_i^2) = \sum_{i=1}^n D(e_i) = (n - p - 1) \sigma^2 \]
- 考虑回归参数 \(\hat{\bm{\beta}}\) 与残差 \(\bm{e}\) 的协方差,有
\[\text{cov} (\hat{\bm{\beta}}, \bm{e}) = \bm{0} \]
- 随机误差项 \(\sigma^2\) 的无偏估计为
\[\hat{\sigma}^2 = \frac{1}{n - p - 1} \text{SSE} = \frac{1}{n - p - 1} (\bm{e}'\bm{e}) = \frac{1}{n - p - 1} \sum_{i=1}^n e_i^2 \]
- 由式 \((3.2.9)\) 可以求出残差的期望
\[E(\bm{e}) = (I - H)X \bm{\beta} = \bm{0} \]
证明:证明第四点性质
证明第三、第五点性质,对第五点性质的式子两边求期望
第三点性质的证明已被包含在上述过程中。
证毕。
我们发现,在由正规方程组求 \(\hat{\bm{\beta}}\) 时,要求矩阵 \(X^{'}X\) 可逆,即要求该矩阵为非奇异矩阵,或要求 \(X^{'}X\) 为 \(p+1\) 阶满秩矩阵,也等价于要求
因此对矩阵 \(X\) 必须有
而矩阵 \(X\) 为 \(n \times (p+1)\) 阶矩阵,于是应有
上述推出的结论恰好在多元线性回归模型的基本假定中存在。这说明,要想用普通最小二乘估计法估计多元线性回归模型的未知参数,样本量必须不少于模型中参数的个数。
3.2.3 回归参数的最大似然估计
对于多元线性样本回归模型
此时 \(\bm{y}\) 的概率分布为
然后可以得到似然函数
其中未知参数为 \(\bm{\beta}\) 和 \(\sigma^2\),最大似然估计就是选取使得似然函数 \(L\) 达到最大的 \(\bm{\beta}\) 和 \(\sigma^2\),对似然函数取自然对数,得到
显然使式子 \((3.2.15)\) 达到最大,等价于下式达到最小。
故在正态假定下,回归参数 \(\bm{\beta}\) 的最大似然估计与普通最小二乘估计是一样的。
估计的回归参数为
下面计算随机误差项的方差 \(\sigma^2\) 的最大似然估计。先计算对数似然函数的偏导
由此可得随机误差项的方差 \(\sigma^2\) 的最大似然估计为
尽管上式为 \(\sigma^2\) 的有偏估计,但它满足一致性,即在大样本情况下,是 \(\sigma^2\) 的渐进无偏估计。我们更经常使用的是无偏估计 \(\hat{\sigma}^2\)(见定理 \(3.2.3\))。