3.5 中心化和标准化
在多元线性回归中,由于涉及多个自变量,自变量单位往往不同,给利用回归方程进行结构分析带来一些困难。由于有时多元回归涉及的数据量很大,可能因为舍入误差而使计算结果不理想。因此,对原始数据进行处理,避免较大的误差是有实际意义的。
产生舍入误差有两个主要原因:一是在回归分析计算中数据量级有很大差异;二是设计矩阵 \(\bm{X}\) 的列向量近似线性相关,\(\bm{X}'\bm{X}\) 为病态矩阵,其逆矩阵 \((\bm{X}'\bm{X})^{-1}\) 产生了较大的误差。
3.5.1 中心化
多元线性理论回归模型一般形式为:
多元线性经验回归方程一般形式为:
经验回归方程必定经过样本中心 \((\overline{x}_1, \overline{x}_2, \cdots, \overline{x}_p;\overline{y})\),将坐标原点移至样本中心,即做坐标变换
则经验回归方程转变为:
上式即为中心化经验回归方程。中心化经验回归方程的常数项为 \(0\),而回归系数的最小二乘估计 \(\hat{\beta}_1\),\(\hat{\beta}_2\),\(\cdots\),\(\hat{\beta}_p\) 保持不变。这是因为坐标系的平移变换只改变直线的截距,不改变直线的斜率。
中心化经验回归方程较一般的经验回归方程少一个未知参数,这使得计算量减少很多。可以先对数据中心化,求出中心化经验回归方程,再由
求出常数项估计值 \(\hat{\beta}_0\)。
3.5.2 标准化回归系数
在用回归方程描述某种现象时,由于自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 所用单位大多不同,数据的大小差异也往往很大,这不利于在同一标准上进行比较。为了消除量纲不同和数量级差异所带来的影响,就需要将样本数据做标准化处理。
对 \(i=1,2,\cdots,n\),\(j=1,2,\cdots,p\),样本数据的标准化公式为:
上式中,
分别表示自变量 \(x_j\) 和因变量 \(y\) 的离差平方和。用最小二乘法求出标准化的样本数据 \((x_{i1}^*, x_{i2}^*, \cdots, x_{ip}^* ; y_{i}^*)\) 的经验回归方程,记为:
式中,\(\hat{\beta}_1^*\),\(\hat{\beta}_2^*\),\(\cdots\),\(\hat{\beta}_p^*\) 为 \(y\) 对自变量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 的标准化回归系数。标准化包括了中心化,因而标准化的回归常数项为 \(0\)