3.5 中心化和標准化
在多元線性回歸中,由於涉及多個自變量,自變量單位往往不同,給利用回歸方程進行結構分析帶來一些困難。由於有時多元回歸涉及的數據量很大,可能因為舍入誤差而使計算結果不理想。因此,對原始數據進行處理,避免較大的誤差是有實際意義的。
產生舍入誤差有兩個主要原因:一是在回歸分析計算中數據量級有很大差異;二是設計矩陣 \(\bm{X}\) 的列向量近似線性相關,\(\bm{X}'\bm{X}\) 為病態矩陣,其逆矩陣 \((\bm{X}'\bm{X})^{-1}\) 產生了較大的誤差。
3.5.1 中心化
多元線性理論回歸模型一般形式為:
多元線性經驗回歸方程一般形式為:
經驗回歸方程必定經過樣本中心 \((\overline{x}_1, \overline{x}_2, \cdots, \overline{x}_p;\overline{y})\),將坐標原點移至樣本中心,即做坐標變換
則經驗回歸方程轉變為:
上式即為中心化經驗回歸方程。中心化經驗回歸方程的常數項為 \(0\),而回歸系數的最小二乘估計 \(\hat{\beta}_1\),\(\hat{\beta}_2\),\(\cdots\),\(\hat{\beta}_p\) 保持不變。這是因為坐標系的平移變換只改變直線的截距,不改變直線的斜率。
中心化經驗回歸方程較一般的經驗回歸方程少一個未知參數,這使得計算量減少很多。可以先對數據中心化,求出中心化經驗回歸方程,再由
求出常數項估計值 \(\hat{\beta}_0\)。
3.5.2 標准化回歸系數
在用回歸方程描述某種現象時,由於自變量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 所用單位大多不同,數據的大小差異也往往很大,這不利於在同一標准上進行比較。為了消除量綱不同和數量級差異所帶來的影響,就需要將樣本數據做標准化處理。
對 \(i=1,2,\cdots,n\),\(j=1,2,\cdots,p\),樣本數據的標准化公式為:
上式中,
分別表示自變量 \(x_j\) 和因變量 \(y\) 的離差平方和。用最小二乘法求出標准化的樣本數據 \((x_{i1}^*, x_{i2}^*, \cdots, x_{ip}^* ; y_{i}^*)\) 的經驗回歸方程,記為:
式中,\(\hat{\beta}_1^*\),\(\hat{\beta}_2^*\),\(\cdots\),\(\hat{\beta}_p^*\) 為 \(y\) 對自變量 \(x_1\),\(x_2\),\(\cdots\),\(x_p\) 的標准化回歸系數。標准化包括了中心化,因而標准化的回歸常數項為 \(0\)