上文中我们获得了多元线性回归模型\(Y=X\beta+\mu\)的参数估计量\(\hat\beta=(X'X)^{-1}(X'Y)\),并且在基本假设得以满足的条件下声明了它是一个最小方差线性无偏一致估计量,在正态性条件得以满足的前提下给出了参数估计量\(\hat\beta\)的分布:
与一元线性回归模型一样,我们想要知道根据OLS估计量得到的样本回归线\(\hat Y=X\hat\beta\)是不是一个好的回归方程。这个好体现在,首先是具有良好的预报效果,即预测的结果与实际结果之间没有太大差异;其次,还表现在解释变量的选择上,这是一个全新的话题。在一元线性回归中,只有一个解释变量,然而在多元线性回归中,我们需要考虑,选择这么多解释变量是否太多了,是不是应该删除几个解释变量。
此外,我们还对残差平方和的性质感兴趣,所以本文我们将给出残差平方和的分布与性质,这将发挥重要的作用。观前提示,本章含有大量的理论推导,关于引理的证明,大家可以选择性忽略。
1、调整可决系数与信息准则
一元线性回归中,我们用可决系数来评判回归效果的好坏,这是基于OLS估计量保证了平方和分解式的存在,而平方和分解式在多元线性回归背景下依然成立。
最后一个等号成立,是基于正规方程\(\partial Q/\partial \hat\beta=0\)得到的,展开后能得到这样的方程组:
因此平方和分解式成立,可以类似定义多元线性回归的可决系数为
但这个时候的\(R^2\)就不再是什么相关系数的平方了。
回到我们的主要问题,我们不知道是否每一个解释变量都有很好的解释效果。加入过多的解释变量会导致过拟合,从而让回归方程在训练集(即观测数据)上有较好的发挥,但在测试集上的预测效果就会比较差——因为加入了解释效果差的解释变量,会使得无效的信息被过分利用。因此,我们必须选择合适的解释变量构成回归模型。
不可否认的是,任何解释变量的增加都会使得回归模型的\(R^2\)减小,这很容易理解,因为\(R^2\)是用使得残差平方和最小的估计量计算的,如果增加了解释变量,最差的情况下只要让这个解释变量的回归系数是0,也不会增加残差平方和;而总离差平方和是不变的,因此最差的情况下加入解释变量也不可能使\(R^2\)增大。
因此,我们不能用\(R^2\)决定加入某个解释变量是否合适。如果我们能够通过在\(R^2\)的表达式里加入解释变量个数,让解释变量的数量制约指标的增长,就能得到一个更为合理的参考指标,这就得到了调整可决系数:
这里\(n\)是观测样本数量,\(k\)是解释变量个数,在同样样本观测数量的情况下,如果解释变量数越多,\((1-R^2)\)所乘上的分数就越大,所以\(\bar R^2\)就越小。因此,调整可决系数\(\bar R^2\)可以作为选择解释变量个数的一个判别标准,如果加入某个解释变量让\(\bar R^2\)变小,则考虑不加入这个解释变量。
除了\(\bar R^2\)外,还有一些可以用来决定是否加入某个解释变量的统计量,我们称之为信息准则。书上提到了两个信息准则:赤池信息准则(AIC)和施瓦茨准则(SC),它们的引入背景比较复杂,但都是越小越好。如果加入某个解释变量能使得AIC或者SC变小,则考虑加入这个解释变量。它们的定义如下:
最后,如果我们已经选择一些解释变量构建了回归模型,如何确定这些解释变量的好坏?简单的方式就是对回归系数作检验:
如果\(H_0\)被接受(p-value大),就说明变量\(X_i\)的解释效果差,从而考虑将这个变量从模型中剔除。因此,检验的p-value越小,就说明这个解释变量越显著,越应该留在回归模型中。对\(\beta_i\)进行检验与一元线性回归完全一致,因为我们已经获得了其方差\(\sigma^2(X'X)^{-1}_{ii}\),用随机误差的方差\(\hat\sigma^2=Q/(n-k-1)\)替代,就能构造出服从\(t(n-k-1)\)分布的枢轴量,然后根据其分位数构造置信区间即可。
2、残差平方和的分布
现在我们对残差平方和作进一步讨论。此前,我们只是为了估计随机误差项的方差,讨论了残差平方和\({\rm RSS}\)的均值。现在,我们尝试讨论残差平方和的分布,在此前,需要对\(\chi^2\)分布有简单的了解并引入一些引理。
定义\(\chi^2\)分布:设\(X\sim N_n(0,I)\),则\(X'X\sim \chi^2_n\),称为服从自由度为\(n\)的\(\chi^2\)分布。简单说来,\(\chi^2_n\)分布就是\(n\)个独立同分布的标准正态变量平方和的分布。
引理1:设\(X\sim N_n(0,\Sigma)\),其中\(\Sigma>0\),则
注意到如下事实:任何一个正定矩阵都可以分解成某个矩阵的平方,所以\(\Sigma^{-1}\)也正定,存在这样的矩阵记作\(\Sigma^{-\frac12}\)。令\(Y=\Sigma^{-\frac12}X\),则
引理2:设\(X\sim N_n(0,I_n)\),\(A\)为\(n\times n\)对称阵且\(r(A)=r\),则当\(A^2=A\)时有
大家应该知道幂等矩阵的特征值必定为0或1,这是因为\(A^2=A\Rightarrow \lambda^2=\lambda\),从而\(A\)的相似标准型为\(\Lambda={\rm diag}(1,\cdots,1,0,\cdots,0)\),一共有\(r\)个1,又因为\(A\)是对称阵,所以可以用正交矩阵对角化,也就是存在某个正交阵\(Q\),使得\(Q'AQ=\Lambda\),令\(Y=Q'X\),则\(Y\sim N_n(0,Q'Q)=N_n(0,I_n)\),所以
现在我们可以讨论\({\rm RSS}\)的分布,上一节我们已经给出了\(Q\)(残差平方和)的实用表达形式\((4.24)\),现在我们不妨再推导一次(省略一些步骤):
而且
这就说明\(I_n-X(X'X)^{-1}X'\)是一个幂等矩阵,结合\(\mu\sim N_n(0,\sigma^2I_n)\),只要得到\(I_n-X(X'X)^{-1}X'\)的秩就能推出\(Q\)的分布了。由于幂等矩阵的特征根恰好为0和1,1的数量就是矩阵的秩同时也是矩阵的迹,所以
因此
事实上,残差平方和还与OLS估计量\(\hat\beta\)独立,证明这一点需要用到以下引理。
引理3:设\(X\sim N_n(0,I_n)\),\(A\)为\(n\times n\)对称阵,\(B\)为\(m\times n\)矩阵,则\(BA=O\Rightarrow BX\)与\(X'AX\)相互独立。
证明此定理的核心在于,由我们刚才的分析知道,\(X'AX\)只用到了前\(r\)个\(Y_i\),而由正交变换的性质,各个\(Y_i\)之间是独立的,所以我们希望\(BX\)只用到后\(n-r\)个\(Y_i\),这就自然得出了独立性。对矩阵\(Q\)进行分块,因为\(A\)只用到了前\(r\)个\(Y_i\),所以也将\(Q\)分为前\(r\)列与后\(n-r\)列。
此时不要求\(A\)是幂等矩阵,但由于\(A\)是对称阵,依然可以正交对角化,所以设\(Q'AQ=\Lambda_r={\rm diag}(\lambda_1,\cdots,\lambda_r,0,\cdots,0)\),也就是
设\(Q=(Q_1,Q_2)\),这里\(Q_1\)为\(n\times r\)的,则
同样构造变换\(Y=Q'X\),则
这里\(Y_1\sim N_r(0,I_r),Y_2\sim N_{n-r}(0,I_{n-r})\),且\(Y_1,Y_2\)相互独立。现在
对\(D_{m\times n}\)也进行分块,分成\(m\times r\)的\(D_1\)和\(m\times {(n-r)}\)的\(D_2\),由\(BA=O\)可以推出
所以\(D_1\Lambda_r=O\),即\(D_1=O_{m\times r}\),所以
现在\(X'AX=Y_1'\Lambda_rY_1=f(Y_1),BX=D_2Y_2=g(Y_2)\),由\(Y_1,Y_2\)独立就有\(X'AX\)与\(BX\)独立,结论得证。
回到我们的残差平方和\(Q=\mu'[I_n-X(X'X)X']\mu\)与OLS估计量\(\hat\beta=(X'X)^{-1}X'(X\beta+\mu)\)上,在\(X\)已知的情况下,\(\hat\beta\)的随机部分为\((X'X)^{-1}X'\mu\),由于
所以\({\rm RSS}\)与\(\hat\beta\)相互独立。
有关残差平方和\({\rm RSS}\)分布的应用,我们会在下文中认识到。
3、回归预测
我们同样可以用样本回归线给出预测,现在我们把\(X_0\)视为一个行向量\(X_0=(1,X_{01},\cdots,X_{0k})\),想要在已知\(X_0\)时预测\(Y_0\),与一元类似,
且\(Y_0\)与\(\hat Y_0\)因\(\mu_i\)的条件序列不相关性而条件独立,故
也就是
因此,如果我们取得了观测值\(X_0\),就可以根据\(\hat\sigma^2\)得到\(Y_0\)的枢轴量,进而根据\(t\)分布的性质给出\(Y_0\)的置信区间。
4、模型的线性化
我们现在讨论的都是总体回归函数是线性函数的情况,然而实际生活中的案例千变万化,线性不可能涵盖万物,强行使用线性模型容易得到不让人满意的效果。所以,我们现在要对线性回归模型中的线性作另外的考量。
线性回归模型中的线性,指的是关于“参数”的线性函数,而不是自变量的线性函数。简单来说,当我们获得数据之后,将数据经过变换得到数据矩阵,只要能够用数据矩阵的形式所表述,都称为线性回归模型,如
获得\(X,Y\)的观测值后能够写出数据矩阵,所以模型关于参数\(\beta_0,\beta_1\)是线性的;如
在获得\(X,Y\)的观测值后也能写出数据矩阵,所以模型关于参数\(\beta_0,\beta_1,\beta_2\)是线性的。注意,要写出这样的线性模型,基本假设依然要满足。
同时,我们还可能对模型形式进行变换,对于严格单调连续函数\(h\),如果我们能列出以下的模型:
则\(h^{-1}(Y)=X\beta+\mu\)也是一个线性回归模型。为此,我们介绍Box-Cox变换,它是对因变量进行的变换,依赖于变换参数\(\lambda\):
这种变换是常见的变换方式,当\(\lambda=0\)时是对数变换\(f(Y)=\ln Y\),当\(\lambda=-1\)时是倒数变换\(f(Y)=1-\frac 1Y\),当\(\lambda=\frac12\)时是平方根变换\(f(Y)=\frac12(\sqrt Y-1)\),由于变换方式多样而广被接受。实际生活中如何确定\(\lambda\)的值是一个问题,但这里我们不作讨论,我们可以看看他的实际应用:Cobb-Dauglas生产函数为
取\(\lambda=0\)使用对数变换,就得到
此时\(A,K,L,Q\)可观测,所以原模型就转变成了一个关于\(\alpha,\beta\)的线性回归模型。不过,也不是所有模型都是可以线性化的,如
这就是一个无法线性化的模型。
本文最主要讨论的问题是模型中解释变量的选择,一般我们会将显著性不足的变量从回归模型中剔除以防止过拟合,调整可决系数、AIC、SC都是用来控制解释变量数目的指标。然后,我们详细讨论了RSS的分布问题,给出了RSS服从的卡方分布,以及RSS与OLS估计量独立的性质。最后,我们对模型的预测功能做出解释,这一点与一元线性回归类似,没有过多说明。此外,还给出了看待线性回归模型的一种视角,将模型线性化。
下文中我们将讨论最后的难点:受约束回归。