3.4 回归方程的显著性检验
我们事先并不能断定随机变量 \(y\) 与变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 之间确有线性关系,在进行回归参数的估计之前,用多元线性回归方程去拟合这种关系,只是根据一些定性分析所做的一种线性假设。在求出线性回归方程后,还需对回归方程进行显著性检验。
下面介绍两种统计检验方法:一种是回归方程显著性的 \(F\) 检验;另一种是回归系数显著性的 \(t\) 检验。同时介绍衡量回归拟合程度的拟合优度检验。
3.4.1 \(F\) 检验
对多元线性回归方程的显著性检验要看自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 从整体上对随机变量 \(y\) 是否有明显的影响。为此提出原假设
如果 \(H_0\) 被接受,则表明随机变量 \(y\) 与自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 之间的关系由线性回归模型表示不合适。
类似于一元线性回归,为了建立对原假设进行检验的 \(F\) 统计量,仍然利用总离差平方和的分解式,即
简写为:
在多元线性回归的场合,我们对上式做进一步解释。
定理 3.4.1
\(\text{SSR} = \bm{y}'(H - \frac{1}{n} \bm{1} \bm{1}') \bm{y}\)
\(\text{SSE} = \bm{y}'(I - H)\bm{y}\)
\(\text{SST} = \bm{y}'(I - \frac{1}{n} \bm{1} \bm{1}')\bm{y}\)
证明:考虑 \(\text{SSE}\),有
考虑 \(\text{SSR}\),有
证毕。
引理 3.4.1
设 \(\bm{y} \sim N(\bm{\mu}, \sigma^2 I_n)\),\(U=\bm{y}' A \bm{y}\),\(V=\bm{y}' B \bm{y}\),其中 \(A\),\(B\) 为 \(n \times n\) 的矩阵。
若 \(A^2=A\),则 \(U/\sigma^2 \sim \chi_{r,\lambda}^2\),其中 \(r=\text{rank}(A)\),\(\lambda = \bm{\mu}' A \bm{\mu} / \sigma^2\)。
若 \(AB=0\),则 \(U、V\) 独立。
证明略。
利用上述引理可以得到下述重要的定理。
定理 3.4.2
随机向量 \(\bm{y} \sim N(X \bm{\beta}, \sigma^2 I_n)\),则有
如果 \(\beta_1 = \beta_2 = \cdots = \beta_p=0\),则 \(\text{SSR} / \sigma^2 \sim \chi^2(p)\);
\(\text{SSE} / \sigma^2 \sim \chi^2(n-p-1)\);
\(\text{SSR}\) 与 \(\text{SSE}\) 独立。
证明: 证明第一点。由于 \(\beta_1 = \beta_2 = \cdots = \beta_p=0\),因此有
令 \(A = H - \frac{1}{n} \bm{1}_n \bm{1}_n'\),可以验证
因此可知 \(A\) 是一个对称幂等矩阵,由引理 \((3.4.1)\) 得到自由度
得到非中心参数
证明第二点。由于
因此令 \(B = I - H\),可知 \(B\) 是一个对称幂等阵,由引理 \((3.4.1)\) 得到自由度
得到非中心参数
证毕。
构造 \(F\) 检验统计量如下:
对构造的 \(F\) 检验统计量,我们有
定理 3.4.3
在正态假设下,当原假设 \(H_0 : \beta_1 = \beta_2 = \cdots = \beta_p = 0\) 成立时,\(F\) 检验统计量服从自由度为 \((p, n-p-1)\) 的 \(F\) 分布。
证明:由定理 \(3.4.2\) 可知,在正态假设下,原假设 \(H_0\) 成立时有
由 \(F\) 分布定义知
证毕。
我们可以利用 \(F\) 统计量对回归方程的总体显著性进行检验。对于给定的数据,计算出 \(\text{SSR}\) 和 \(\text{SSE}\),进而得到 \(F\) 值。我们可以得到类似一元线性回归场合的方差分析表。
给定显著性水平 \(\alpha\),得到临界值 \(F_{\alpha}(p, n-p-1)\)。
当 \(F > F_{\alpha}(p, n-p-1)\),拒绝原假设 \(H_0\),认为在显著性水平 \(\alpha\) 下,\(y\) 与 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 存在显著的线性关系。
当 \(F \leqslant F_{\alpha}(p, n-p-1)\),接受原假设 \(H_0\),认为在显著性水平 \(\alpha\) 下,\(y\) 与 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 不存在显著的线性关系。
与一元线性回归一样,也可以根据 \(P\) 值做检验,当 \(P\) 值 \(< \alpha\) 时,拒绝原假设 \(H_0\);当 \(P\) 值 \(\geqslant \alpha\) 时,接受原假设 \(H_0\)。
3.4.2 \(t\) 检验
在多元线性回归中,回归方程显著并不意味着每个自变量对 \(y\) 的影响都显著,我们想从回归方程中剔除那些次要的、可有可无的变量,重新建立更为简单的回归方程(降低模型复杂度,防止过拟合),所以需要对每个自变量进行显著性检验。
显然,如果某个自变量 \(x_j\) 对 \(y\) 的作用不显著,那么在回归模型中,它的系数 \(\beta_j\) 就取值为 \(0\)。因此检验变量 \(x_j\) 是否显著,等价于检验假设
如果接受原假设 \(H_{0j}\),则 \(x_j\) 不显著;如果拒绝原假设 \(H_{0j}\),则 \(x_j\) 是显著的。
由 \(3.3.6\) 的正态性得到
令 \((X'X)^{-1} = (c_{ij})\),于是有
由此构成 \(t\) 统计量
其中 \(\hat{\sigma}\) 是回归标准差:
对构造的 \(t\) 检验统计量,我们有
定理 3.4.4
在正态假设下,当原假设 \(H_{0j} : \beta_j = 0\) 成立时,\(t_j\) 检验统计量服从自由度为 \(n-p-1\) 的 \(t\) 分布。
证明:在正态假设下,当原假设 \(H_{0j} : \beta_j = 0\) 成立时,有
由定理 \(3.4.2\) 可得
则有
证毕。
给定显著性水平 \(\alpha\),查出双侧检验的临界值 \(t_{\alpha/2}\)。
当 \(|t_j| \geqslant t_{\alpha / 2}\),拒绝原假设 \(H_{0j}\),认为 \(\beta_{j}\) 显著不为 \(0\),自变量 \(x_j\) 对因变量 \(y\) 的线性效果显著。
当 \(|t_j| < t_{\alpha / 2}\),接受原假设 \(H_{0j}\),认为 \(\beta_{j}\) 显著为 \(0\),自变量 \(x_j\) 对因变量 \(y\) 的线性效果不显著。
在教材上给出一个关于城镇消费性支出的例子,由 \(F\) 检验可以知道回归方程整体是显著的,即 \(9\) 个自变量作为一个整体对因变量 \(y\) 有十分显著的影响,但软件计算发现,关于 \(\beta_j\) 的 \(t\) 统计量 \(t_j\),在显著性水平 \(\alpha = 0.05\) 时只有 \(x_1\),\(x_2\),\(x_3\),\(x_5\) 通过了显著性检验。这个例子说明,尽管回归方程高度显著,但也会出现某些自变量 \(x_j\) 对 \(y\) 无显著影响的情况。
多元回归中,并不是包含在回归方程中的自变量越多越好(之后有详细讨论)。在此介绍一种简单的剔除多余变量的方法——后退法。
当有多个自变量对因变量 \(y\) 无显著影响时,由于自变量之间的交互作用,不能一次剔除掉所有不显著的变量。原则上每次只剔除一个变量,且先剔除其中 \(|t|\) 值最小(或 \(|P|\) 值最大)的一个变量,然后再对求得的新的回归方程进行检验,有不显著的变量再从中选出最不显著的进行剔除,直到保留的变量都对 \(y\) 有显著影响为止。
使用后退法时,由于各个自变量的单位不同,注意标准化数据。
3.4.3 \(t\) 检验与 \(F\) 检验的关系:偏 \(F\) 检验
在一元线性回归中,回归系数显著性的 \(t\) 检验与回归方程显著性的 \(F\) 检验是等价的,但在多元线性回归中,这两种检验并不等价。\(F\) 检验显著,只能说明 \(y\) 对自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 整体的线性回归效果是显著的,不能说明 \(y\) 对每个自变量 \(x_i\) 的回归效果都显著。
从另一个角度考虑自变量 \(x_j\) 的显著性。
\(y\) 对自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 线性回归的残差平方和为 \(\text{SSE}\),回归平方和为 \(\text{SSR}\)。在剔除掉 \(x_j\) 后,用 \(y\) 对其余的 \(p-1\) 个自变量做回归,记所得的残差平方和为 \(\text{SSE}_{(j)}\),回归平方和为 \(\text{SSR}_{(j)}\),则自变量 \(x_j\) 对回归的贡献为
称上式为 \(x_j\) 的偏回归平方和。由此构造偏 \(F\) 检验统计量
定理 3.4.5
在正态假设下,当原假设 \(H_{0j}:\beta_j = 0\) 成立时,偏 \(F\) 检验统计量 \(F_j\) 服从自由度为 \((1,n-p-1)\) 的 \(F\) 分布。
证明:由定理 \(3.4.1\),我们有
在正态假设下,当原假设 \(H_0\) 成立时,由式 \((3.4.5)\)
证毕。
可以证明上式给出的偏 \(F\) 检验与 \(t\) 检验是一致的,具体有下述定理
定理 3.4.6
对式 \((3.4.9)\) 的偏 \(F\) 检验统计量和式 \((3.4.6)\) 的 \(t\) 检验统计量有关系式
\[F_j = t_j^2 \]
证明:有
证毕。
当从回归方程中剔除变元时,回归平方和减少,残差平方和增加。反之,往回归方程中引入变元,回归平方和增加,残差平方和减少,且两者的增减量相等。具体地,根据平方和分解式可得下式关系
3.4.4 拟合优度
拟合优度用于检验回归方程对样本观测值的拟合程度。在一元线性回归中,定义了样本决定系数 \(r^2 = \text{SSR} / \text{SST}\),在多元线性回归中,同样可以定义样本决定系数为:
样本决定系数 \(R^2\) 的取值在 \([0,1]\) 区间内,\(R^2\) 越接近 \(1\),表明回归拟合的效果越好;\(R^2\) 越接近 \(0\),表明回归拟合的效果越差。与 \(F\) 检验相比,\(R^2\) 可以更清楚直观地反映回归拟合的效果,但是并不能作为严格的显著性检验。
称上式给出的 \(R\) 为 \(y\) 关于 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 的样本复相关系数。在两个变量的简单相关系数中,相关系数有正负之分,而复相关系数表示的是因变量 \(y\) 与全体自变量之间的线性关系,它的符号不能由某一个自变量的回归系数的符号确定,因而都取正号。。。