数学 - 回归分析 - 第 3 章 多元线性回归 - 3.2 回归参数估计


3.2 回归参数的估计

与一元线性回归类似,我们需要对回归参数进行估计。估计的方法一般有两种,最小二乘估计和最大似然估计。

3.2.1 回归参数的普通最小二乘估计

多元线性回归方程未知参数 \(\beta_0\)\(\beta_1\)\(\cdots\)\(\beta_p\) 仍然可以采用最小二乘估计。对于式 \((3.1.5)\) 表示的样本回归模型 \(\bm{y} = X \bm{\beta} + \bm{\varepsilon}\),所谓最小二乘法,就是寻找 \(\hat{\beta}_0\)\(\hat{\beta}_1\)\(\cdots\)\(\hat{\beta}_p\) 使离差平方和最小。

\[\begin{align*} Q(\hat{\beta}_0,\hat{\beta}_1,\cdots,\hat{\beta}_p) & = \sum_{i=1}^n [y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \cdots + \hat{\beta}_p x_{ip})]^2 \\ & = \min_{\beta_0 \, ,\beta_1 \, ,\cdots ,\beta_p} [y_i - (\beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip})]^2 \end{align*} \tag{3.2.1} \]

依照式 \((3.2.1)\) 求出的 \(\hat{\beta}_0\)\(\hat{\beta}_1\)\(\cdots\)\(\hat{\beta}_p\) 就称为 \(\beta_0\)\(\beta_1\)\(\cdots\)\(\beta_p\) 的最小二乘估计。

从式 \((3.2.1)\) 中求 \(\hat{\beta}_0\)\(\hat{\beta}_1\)\(\cdots\)\(\hat{\beta}_p\) 是一个求极值问题,由于 \(Q\) 是关于 \(\beta_0\)\(\beta_1\)\(\cdots\)\(\beta_p\) 的非负二次函数,因而最小值总是存在,由费马引理,极值点必须满足下列方程组

\[\left\{ \begin{align*} \frac{\partial Q}{\partial \beta_0} \Bigg|_{\beta_0 = \hat{\beta}_0} & = -2 \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{i1} - \cdots -\hat{\beta}_p x_{ip} ) = 0 \\ \frac{\partial Q}{\partial \beta_1} \Bigg|_{\beta_1 = \hat{\beta}_1} & = -2 \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{i1} - \cdots -\hat{\beta}_p x_{ip} ) x_{i1} = 0 \\ & \quad \vdots \\ \frac{\partial Q}{\partial \beta_p} \Bigg|_{\beta_p = \hat{\beta}_p} & = -2 \sum_{i=1}^n (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_{i1} - \cdots -\hat{\beta}_p x_{ip} ) x_{ip} = 0 \\ \end{align*}\tag{3.2.2} \right. \]

以上方程组经整理后,得出用矩阵形式表示的正规方程组

\[X'(\bm{y} - X \hat{\bm{\beta}}) = 0 \tag{3.2.3} \]

移项得

\[X'X \hat{\bm{\beta}} = X'\bm{y} \]

\(X'X\) 可逆时,即得回归参数的最小二乘估计

\[\hat{\bm{\beta}} = (X'X)^{-1} X' \bm{y} \tag{3.2.4} \]

得到了经验回归方程

\[\hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x_1 + \cdots + \hat{\beta}_p x_p \tag{3.2.5} \]

3.2.3 回归值与残差

(1) 回归值

在求出回归参数的最小二乘估计后,可以用经验回归方程 \((3.2.5)\) 计算因变量的回归值与残差。

\[\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_{i1} + \cdots + \hat{\beta}_p x_{ip} \tag{3.2.6} \]

称上式为观测值 \(y_i\)回归拟合值,简称回归值或拟合值。

类似地,称向量 \(\hat{\bm{y}}=X \hat{\bm{\beta}}=(\hat{y}_1,\cdots,\hat{y}_n)'\) 为因变量向量 \(\bm{y} = (y_1, \cdots, y_n)'\) 的回归值。由式 \((3.2.4)\) 可得

\[\hat{\bm{y}} = X \hat{\bm{\beta}} = X (X'X)^{-1} X' \bm{y} \tag{3.2.7} \]

由式 \((3.2.7)\) 可以看到,矩阵 \(X (X'X)^{-1} X'\) 的作用是把因变量向量 \(\bm{y}\) 变为拟合值向量 \(\hat{\bm{y}}\),从形式上看是给 \(\bm{y}\) 带上了一顶“帽子”,因而形象地称矩阵 \(X (X'X)^{-1} X'\)帽子矩阵,并记为 \(H\),于是有

\[\hat{\bm{y}} = H \bm{y} \]

关于帽子矩阵,我们详细地做一些讨论。

定理 3.2.1 帽子矩阵的性质

  • 显然帽子矩阵 \(H\)\(n\) 阶对称矩阵,同时还是幂等矩阵,即有

\[H' = H, \quad H^2 = H \]

  • 帽子矩阵 \(H\) 也是一个投影矩阵,从代数学观点看,\(\bm{\hat{y}}\)\(\bm{y}\) 在自变量 \(X\) 生成的空间上的投影,这个投影过程就是把 \(\bm{y}\) 左乘矩阵 \(H\),因此将 \(H\) 称为投影阵,且具有投影阵的一般性质

\[(I - H)' =I - H, \quad (I - H)^2 = I - H \]

  • 由对称幂等阵的性质,帽子矩阵 \(H\) 的秩和迹相等,且有

\[\text{rank} (H) = \text{tr} (H)= p+1 \]

  • 对设计矩阵 \(X\) 做分块 \(X = \begin{bmatrix}\bm{1}_n& X^* \end{bmatrix}\),对帽子矩阵 \(H\) 有下式

\[H \bm{1}_n= \bm{1}_n, \quad H X^*= X^* \]

证明:证明帽子矩阵的第三点性质,根据迹的性质 \(\text{tr}(A B) = \text{tr}(B A)\),有

\[\begin{align*} \text{tr} (H) & = \text{tr} (X (X'X)^{-1} X') \\ & = \text{tr} ((X'X)^{-1} X' X ) \\ & = \text{tr} (I_{p+1}) = 1+p \end{align*} \]

再证明帽子矩阵第四点性质,由

\[H X = X (X'X)^{-1} X' X = X \]

可得

\[H \begin{bmatrix}\bm{1}_n& X^* \end{bmatrix} = H X = X = \begin{bmatrix}\bm{1}_n& X^* \end{bmatrix} \]

证毕。

(2) 残差

定义 \(y_i\) 的残差

\[e_i = y_i - \hat{y}_i \tag{3.2.8} \]

\(\bm{e} = (e_1, \cdots, e_n)' = \bm{y} -\hat{\bm{y}}\)回归残差向量。将 \(\hat{\bm{y}} = H \bm{y}\) 带入得,

\[\bm{e} = (I - H) \bm{y} \tag{3.2.9} \]

\(\text{cov} (\bm{e}, \bm{e}) = (\text{cov}(e_i, e_j))_{n\times n}\) 为残差向量 \(\bm{e}\) 的协方差阵,或称为方差阵,记为 \(D(\bm{e})\),因而

\[\begin{align*} D(\bm{e}) & = \text{cov} (\bm{e}, \bm{e}) \\ & = \text{cov} ((I - H) \bm{y}, (I - H) \bm{y}) \\ & = (I - H) \text{cov}(\bm{y}, \bm{y})(I - H)' \\ & = \sigma^2 (I - H) I_n (I - H)' \\ & = \sigma^2 (I - H) \tag{3.2.10} \end{align*} \]

由式 \((3.2.2)\) 可知,残差满足关系式

\[\left\{ \begin{align*} & \sum e_i = 0 \\ & \sum e_i x_{i1} = 0 \\ & \quad \, \vdots \\ & \sum e_i x_{ip} = 0 \end{align*} \right. \tag{3.2.11} \]

上式说明残差平均值为 \(0\),残差对每个自变量的加权平均值为 \(0\)。式 \((3.2.10)\) 用矩阵表示为

\[X' \bm{e} = \bm{0} \]

归纳残差的各种性质如下:

定理 3.2.3 残差的性质

  • 残差本身是样本的函数,是一个统计量,因此可视为随机向量,可以考虑协方差。令帽子矩阵 \(H\) 的主对角元素为 \(h_{ii}\)

\[\text{cov} (\bm{e}, \bm{e})= D(\bm{e}) = \sigma^2(I - H), \quad \text{var} (e_i) = D(e_i) = (1-h_{ii}) \sigma^2 \]

  • 将式 \((3.2.10)\) 表成矩阵形式有

\[X' \bm{e} = 0 \]

  • 考虑残差的平方和 \(\text{SSE}\),有

\[E(\sum_{i=1}^n e_i^2) = \sum_{i=1}^n D(e_i) = (n - p - 1) \sigma^2 \]

  • 考虑回归参数 \(\hat{\bm{\beta}}\) 与残差 \(\bm{e}\) 的协方差,有

\[\text{cov} (\hat{\bm{\beta}}, \bm{e}) = \bm{0} \]

  • 随机误差项 \(\sigma^2\) 的无偏估计为

\[\hat{\sigma}^2 = \frac{1}{n - p - 1} \text{SSE} = \frac{1}{n - p - 1} (\bm{e}'\bm{e}) = \frac{1}{n - p - 1} \sum_{i=1}^n e_i^2 \]

  • 由式 \((3.2.9)\) 可以求出残差的期望

\[E(\bm{e}) = (I - H)X \bm{\beta} = \bm{0} \]

证明:证明第四点性质

\[\begin{align*} \text{cov} (\hat{\bm{\beta}}, \bm{e}) & = \text{cov} ((X'X)^{-1} X' \bm{y}, (I - H) \bm{y}) \\ & = (X'X)^{-1} X' \sigma^2 I_n (I - H) \end{align*} \]

证明第三、第五点性质,对第五点性质的式子两边求期望

\[\begin{align*} E(\hat{\sigma}^2) & = \frac{1}{n - p - 1} E(\sum_{i=1}^n e_i^2) \\ & = \frac{1}{n - p - 1} \sum_{i=1}^n D(e_i) \\ & = \frac{1}{n - p - 1} \sum_{i=1}^n (1-h_{ii}) \sigma^2 \\ & = \frac{\sigma^2}{n - p - 1} (n - \sum_{i=1}^n h_{ii}) \\ & = \frac{\sigma^2}{n - p - 1} (n - \text{tr}(H)) = \sigma^2 \end{align*} \]

第三点性质的证明已被包含在上述过程中。

证毕。

我们发现,在由正规方程组求 \(\hat{\bm{\beta}}\) 时,要求矩阵 \(X^{'}X\) 可逆,即要求该矩阵为非奇异矩阵,或要求 \(X^{'}X\)\(p+1\) 阶满秩矩阵,也等价于要求

\[|X^{'}X| \neq 0 \]

因此对矩阵 \(X\) 必须有

\[\text{rank}(X) \geqslant p+1 \]

而矩阵 \(X\)\(n \times (p+1)\) 阶矩阵,于是应有

\[n \geqslant p+1 \]

上述推出的结论恰好在多元线性回归模型的基本假定中存在。这说明,要想用普通最小二乘估计法估计多元线性回归模型的未知参数,样本量必须不少于模型中参数的个数

3.2.3 回归参数的最大似然估计

对于多元线性样本回归模型

\[\bm{y} = X \bm{\beta} + \bm{\varepsilon}, \quad \bm{\varepsilon} \sim N(\bm{0}, \sigma^2 I_n) \tag{3.2.12} \]

此时 \(\bm{y}\) 的概率分布为

\[\bm{y} \sim N(X \bm{\beta}, \sigma^2 I_n) \tag{3.2.13} \]

然后可以得到似然函数

\[L(\bm{\beta}, \sigma^2;\bm{y}) = (2 \pi)^{-\frac{n}{2}} (\sigma^2)^{-\frac{n}{2}} \exp (-\frac{1}{2\sigma^2}(\bm{y} - X \bm{\beta})'(\bm{y} - X \bm{\beta})) \tag{3.2.14} \]

其中未知参数为 \(\bm{\beta}\)\(\sigma^2\),最大似然估计就是选取使得似然函数 \(L\) 达到最大的 \(\bm{\beta}\)\(\sigma^2\),对似然函数取自然对数,得到

\[\ln L = -\frac{n}{2} \ln (2 \pi) -\frac{n}{2} \ln (\sigma^2) -\frac{1}{2\sigma^2} (\bm{y} - X \bm{\beta})'(\bm{y} - X \bm{\beta}) \tag{3.2.15} \]

显然使式子 \((3.2.15)\) 达到最大,等价于下式达到最小。

\[(\bm{y} - X \bm{\beta})'(\bm{y} - X \bm{\beta}) \]

在正态假定下,回归参数 \(\bm{\beta}\) 的最大似然估计与普通最小二乘估计是一样的。

估计的回归参数为

\[\hat{\bm{\beta}} = (X'X)^{-1} X' \bm{y} \]

下面计算随机误差项的方差 \(\sigma^2\) 的最大似然估计。先计算对数似然函数的偏导

\[\frac{\partial \ln L(\bm{\beta}, \sigma^2)}{\partial \sigma^2} = -\frac{n}{2} \frac{1}{\sigma^2} + \frac{1}{2\sigma^4} \text{SSE} = 0 \]

由此可得随机误差项的方差 \(\sigma^2\) 的最大似然估计为

\[\hat{\sigma}_L^2 = \frac{1}{n} \text{SSE} = \frac{1}{n} (\bm{e}' \bm{e}) \tag{3.2.16} \]

尽管上式为 \(\sigma^2\) 的有偏估计,但它满足一致性,即在大样本情况下,是 \(\sigma^2\) 的渐进无偏估计。我们更经常使用的是无偏估计 \(\hat{\sigma}^2\)(见定理 \(3.2.3\))。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM