多元線性回歸變量篩選

本文轉載自查看原文 2016-06-20 08:37 3961 回歸診斷/ 統計回歸/ 變量篩選/ 線性回歸

目錄##

變量篩選方法
預測與回歸診斷
其他統計量
SAS中Weight和Freq的區別
Refreence

1. 變量篩選方法

全回歸模型（None）
向前發（Forward） -- 逐步引入法
向后發（Backward） --逐步剔除法
逐步篩選法（Stepwise）
最大Rsquare增量法（Maxr）
最小Rsquare增量法（Minr）
Rsquare選擇法（Rsquare）
修正Rsquare選擇法（Adjrsq）
Mallow的$ C_p $選擇法（CP）
- $C_p$衡量回歸模型的擬合效果（fittness），值越小，表示模型越精確
- $\hat\sigma$ 代表預測的響應變量方差， d 代表預測變量的個數$X_1,..,X_d$
  $$ C_p = \frac{1}{n}(RSS + 2d\hat\sigma^2) $$

2. 預測與回歸診斷##

2.1. 杠桿率：刻畫第i個觀測點距離中心的遠近（$ x_ i$ 為設計矩陣X的第i行）

$$ h _ i = x _ i (X'X)^{-1} x'_i $$

2.2. CookD統計量（影響診斷統計量）

探查對回歸估計或預測具有很大影響的觀測點，即強影響點。其中：b（i）是刪掉第i個觀測后，從余下的n-1個觀測得出的參數$ \beta $的最小二乘估計， k是模型中參數的個數，$ t_i$ 是學生化殘差
$$ CookD = \frac{(b(i) - b)(X'X)(b(i)-b) }{s^2k} = t_i^2\frac{h_i}{(1-h_i)k} $$

2.3.共線診斷

當某個回歸變量近似地是模型中綺月變量的線性組合是，得到的參數估計是不穩定的，而且估計量的方差很大。這種問題被稱為共線性（colinearity) 或者多重共線性（multicolinearity).共線性診斷就是找出那些變量間存在共線關系：

特征值法：把$ X'X $變換為對角線為1 的矩陣，然后求特征值和特征向量，若有r個特征值近似為0，則相應的r個變量有強共線關系
條件指數（Condition Index）：最大特征值和每個特征值之比的平方根。最大條件指數為矩陣X的條件數。當條件數較大是，這組數據被認為是病態數據。當條件數很大時，認為有嚴重共線性。
方差膨脹因子：記$ C=(c_{ij})=(X'X)^{-1} $, R(i)為變量$X_i$對其余m-1個自變量的復相關系數，則有：
$$ c_{ii} = \frac{1}{(1- R^2(i))} (i=1,2,...,m) $$
$ c_{ii}$被稱為方差膨脹因子。
- 參數的容許度定義為： $$ TOL(i) = 1 - R^2(i) $$ $$ VIF = \frac {1}{TOL} $$

3. 其他統計量

3.1 決定系數$R^2$定義

$$ R^2 = 1 -\frac{RSS}{TSS} = 1 - \frac{\sum e_i^2}{\sum (y_i -\bar{y})^2} $$

3.2 修正的決定系數 Adj-Rsquare 定義

$$ Adj-Rquare = 1 - \frac{\sum e_i^2 / (n-k-1)}{\sum (y_i -\bar{y})^2 /(n-1)}
=1-\frac{n-1}{n-k-1}\times\frac{RSS}{TSS} = R^2 - \frac{k}{n-k-1} (1-R^2) $$

Adj-Rsquare 可能為負值，
$當R^2 < \frac{k}{n-k-1}時，Adj-Rsquare < 0 , 在這種情況下，R^2 失去意義，當做R^2=0處理$。因此，Adj-Rquare 只適用於 y與 $x_1,...,x_k $ 整體相關程度比較高的情況

4. SAS中 Weight和Freq的區別？

Freq 變量標識觀測數顯的次數；weight變量給出觀測的相應權重。當每個觀測的權重都是整數時，weight語句也可以用freq 語句代替

data demo;
input FW Value;
cards;
1 1
2 3
;

proc means data=demo n mean var std;
var value;
freq fw;
run;

proc means data=demo n mean var std;
var value;
weight fw;
run;