目录##
- 变量筛选方法
- 预测与回归诊断
- 其他统计量
- SAS中Weight和Freq的区别
- Refreence
1. 变量筛选方法
- 全回归模型 (None)
- 向前发(Forward) -- 逐步引入法
- 向后发(Backward) --逐步剔除法
- 逐步筛选法 (Stepwise)
- 最大Rsquare增量法(Maxr)
- 最小Rsquare增量法(Minr)
- Rsquare选择法(Rsquare)
- 修正Rsquare选择法(Adjrsq)
- Mallow的\( C_p \)选择法(CP)
- \(C_p\)衡量回归模型的拟合效果(fittness),值越小,表示模型越精确
- \(\hat\sigma\) 代表预测的响应变量方差, d 代表预测变量的个数\(X_1,..,X_d\)
$$ C_p = \frac{1}{n}(RSS + 2d\hat\sigma^2) $$
2. 预测与回归诊断##
2.1. 杠杆率: 刻画第i个观测点距离中心的远近 (\( x_ i\) 为设计矩阵X的第i行)
$$ h _ i = x _ i (X'X)^{-1} x'_i $$
2.2. CookD统计量 (影响诊断统计量)
- 探查对回归估计或预测具有很大影响的观测点,即强影响点。其中:b(i)是删掉第i个观测后,从余下的n-1个观测得出的参数\( \beta \)的最小二乘估计, k是模型中参数的个数,\( t_i\) 是学生化残差
$$ CookD = \frac{(b(i) - b)(X'X)(b(i)-b) }{s^2k} = t_i^2\frac{h_i}{(1-h_i)k} $$
2.3.共线诊断
当某个回归变量近似地是模型中绮月变量的线性组合是,得到的参数估计是不稳定的,而且估计量的方差很大。这种问题被称为共线性(colinearity) 或者多重共线性(multicolinearity).共线性诊断就是找出那些变量间存在共线关系:
- 特征值法:把\( X'X \)变换为对角线为1 的矩阵,然后求特征值和特征向量,若有r个特征值近似为0,则相应的r个变量有强共线关系
- 条件指数(Condition Index):最大特征值和每个特征值之比的平方根。最大条件指数为矩阵X的条件数。当条件数较大是,这组数据被认为是病态数据。当条件数很大时,认为有严重共线性。
- 方差膨胀因子:记\( C=(c_{ij})=(X'X)^{-1} \), R(i)为变量\(X_i\)对其余m-1个自变量的复相关系数,则有:
$$ c_{ii} = \frac{1}{(1- R^2(i))} (i=1,2,...,m) $$
\( c_{ii}\)被称为方差膨胀因子。- 参数的容许度定义为: $$ TOL(i) = 1 - R^2(i) $$ $$ VIF = \frac {1}{TOL} $$
3. 其他统计量
3.1 决定系数\(R^2\)定义
$$ R^2 = 1 -\frac{RSS}{TSS} = 1 - \frac{\sum e_i^2}{\sum (y_i -\bar{y})^2} $$
3.2 修正的决定系数 Adj-Rsquare 定义
$$ Adj-Rquare = 1 - \frac{\sum e_i^2 / (n-k-1)}{\sum (y_i -\bar{y})^2 /(n-1)}
=1-\frac{n-1}{n-k-1}\times\frac{RSS}{TSS} = R^2 - \frac{k}{n-k-1} (1-R^2) $$
Adj-Rsquare 可能为负值,
\(当R^2 < \frac{k}{n-k-1}时,Adj-Rsquare < 0 , 在这种情况下,R^2 失去意义,当做R^2=0处理\)。因此,Adj-Rquare 只适用于 y与 \(x_1,...,x_k \) 整体相关程度比较高的情况
4. SAS中 Weight和Freq的区别?
Freq 变量标识观测数显的次数;weight变量给出观测的相应权重。当每个观测的权重都是整数时,weight语句也可以用freq 语句代替
data demo;
input FW Value;
cards;
1 1
2 3
;
proc means data=demo n mean var std;
var value;
freq fw;
run;
proc means data=demo n mean var std;
var value;
weight fw;
run;
Reference:
计量经济学 - Adj-Rsquare