多元线性回归变量筛选

本文转载自查看原文 2016-06-20 08:37 3961 回归诊断/ 统计回归/ 变量筛选/ 线性回归

目录##

变量筛选方法
预测与回归诊断
其他统计量
SAS中Weight和Freq的区别
Refreence

1. 变量筛选方法

全回归模型（None）
向前发（Forward） -- 逐步引入法
向后发（Backward） --逐步剔除法
逐步筛选法（Stepwise）
最大Rsquare增量法（Maxr）
最小Rsquare增量法（Minr）
Rsquare选择法（Rsquare）
修正Rsquare选择法（Adjrsq）
Mallow的$ C_p $选择法（CP）
- $C_p$衡量回归模型的拟合效果（fittness），值越小，表示模型越精确
- $\hat\sigma$ 代表预测的响应变量方差， d 代表预测变量的个数$X_1,..,X_d$
  $$ C_p = \frac{1}{n}(RSS + 2d\hat\sigma^2) $$

2. 预测与回归诊断##

2.1. 杠杆率：刻画第i个观测点距离中心的远近（$ x_ i$ 为设计矩阵X的第i行）

$$ h _ i = x _ i (X'X)^{-1} x'_i $$

2.2. CookD统计量（影响诊断统计量）

探查对回归估计或预测具有很大影响的观测点，即强影响点。其中：b（i）是删掉第i个观测后，从余下的n-1个观测得出的参数$ \beta $的最小二乘估计， k是模型中参数的个数，$ t_i$ 是学生化残差
$$ CookD = \frac{(b(i) - b)(X'X)(b(i)-b) }{s^2k} = t_i^2\frac{h_i}{(1-h_i)k} $$

2.3.共线诊断

当某个回归变量近似地是模型中绮月变量的线性组合是，得到的参数估计是不稳定的，而且估计量的方差很大。这种问题被称为共线性（colinearity) 或者多重共线性（multicolinearity).共线性诊断就是找出那些变量间存在共线关系：

特征值法：把$ X'X $变换为对角线为1 的矩阵，然后求特征值和特征向量，若有r个特征值近似为0，则相应的r个变量有强共线关系
条件指数（Condition Index）：最大特征值和每个特征值之比的平方根。最大条件指数为矩阵X的条件数。当条件数较大是，这组数据被认为是病态数据。当条件数很大时，认为有严重共线性。
方差膨胀因子：记$ C=(c_{ij})=(X'X)^{-1} $, R(i)为变量$X_i$对其余m-1个自变量的复相关系数，则有：
$$ c_{ii} = \frac{1}{(1- R^2(i))} (i=1,2,...,m) $$
$ c_{ii}$被称为方差膨胀因子。
- 参数的容许度定义为： $$ TOL(i) = 1 - R^2(i) $$ $$ VIF = \frac {1}{TOL} $$

3. 其他统计量

3.1 决定系数$R^2$定义

$$ R^2 = 1 -\frac{RSS}{TSS} = 1 - \frac{\sum e_i^2}{\sum (y_i -\bar{y})^2} $$

3.2 修正的决定系数 Adj-Rsquare 定义

$$ Adj-Rquare = 1 - \frac{\sum e_i^2 / (n-k-1)}{\sum (y_i -\bar{y})^2 /(n-1)}
=1-\frac{n-1}{n-k-1}\times\frac{RSS}{TSS} = R^2 - \frac{k}{n-k-1} (1-R^2) $$

Adj-Rsquare 可能为负值，
$当R^2 < \frac{k}{n-k-1}时，Adj-Rsquare < 0 , 在这种情况下，R^2 失去意义，当做R^2=0处理$。因此，Adj-Rquare 只适用于 y与 $x_1,...,x_k $ 整体相关程度比较高的情况

4. SAS中 Weight和Freq的区别？

Freq 变量标识观测数显的次数；weight变量给出观测的相应权重。当每个观测的权重都是整数时，weight语句也可以用freq 语句代替

data demo;
input FW Value;
cards;
1 1
2 3
;

proc means data=demo n mean var std;
var value;
freq fw;
run;

proc means data=demo n mean var std;
var value;
weight fw;
run;