多元线性回归变量筛选


目录##

  1. 变量筛选方法
  2. 预测与回归诊断
  3. 其他统计量
  4. SAS中Weight和Freq的区别
  5. Refreence

1. 变量筛选方法

  • 全回归模型 (None)
  • 向前发(Forward) -- 逐步引入法
  • 向后发(Backward) --逐步剔除法
  • 逐步筛选法 (Stepwise)
  • 最大Rsquare增量法(Maxr)
  • 最小Rsquare增量法(Minr)
  • Rsquare选择法(Rsquare)
  • 修正Rsquare选择法(Adjrsq)
  • Mallow的\( C_p \)选择法(CP)
    • \(C_p\)衡量回归模型的拟合效果(fittness),值越小,表示模型越精确
    • \(\hat\sigma\) 代表预测的响应变量方差, d 代表预测变量的个数\(X_1,..,X_d\)
      $$ C_p = \frac{1}{n}(RSS + 2d\hat\sigma^2) $$

2. 预测与回归诊断##

2.1. 杠杆率: 刻画第i个观测点距离中心的远近 (\( x_ i\) 为设计矩阵X的第i行)

$$ h _ i = x _ i (X'X)^{-1} x'_i $$

2.2. CookD统计量 (影响诊断统计量)

  • 探查对回归估计或预测具有很大影响的观测点,即强影响点。其中:b(i)是删掉第i个观测后,从余下的n-1个观测得出的参数\( \beta \)的最小二乘估计, k是模型中参数的个数,\( t_i\) 是学生化残差
    $$ CookD = \frac{(b(i) - b)(X'X)(b(i)-b) }{s^2k} = t_i^2\frac{h_i}{(1-h_i)k} $$

2.3.共线诊断

当某个回归变量近似地是模型中绮月变量的线性组合是,得到的参数估计是不稳定的,而且估计量的方差很大。这种问题被称为共线性(colinearity) 或者多重共线性(multicolinearity).共线性诊断就是找出那些变量间存在共线关系:

  • 特征值法:把\( X'X \)变换为对角线为1 的矩阵,然后求特征值和特征向量,若有r个特征值近似为0,则相应的r个变量有强共线关系
  • 条件指数(Condition Index):最大特征值和每个特征值之比的平方根。最大条件指数为矩阵X的条件数。当条件数较大是,这组数据被认为是病态数据。当条件数很大时,认为有严重共线性。
  • 方差膨胀因子:记\( C=(c_{ij})=(X'X)^{-1} \), R(i)为变量\(X_i\)对其余m-1个自变量的复相关系数,则有:
    $$ c_{ii} = \frac{1}{(1- R^2(i))} (i=1,2,...,m) $$
    \( c_{ii}\)被称为方差膨胀因子。
    • 参数的容许度定义为: $$ TOL(i) = 1 - R^2(i) $$ $$ VIF = \frac {1}{TOL} $$

3. 其他统计量

3.1 决定系数\(R^2\)定义

$$ R^2 = 1 -\frac{RSS}{TSS} = 1 - \frac{\sum e_i^2}{\sum (y_i -\bar{y})^2} $$

3.2 修正的决定系数 Adj-Rsquare 定义

$$ Adj-Rquare = 1 - \frac{\sum e_i^2 / (n-k-1)}{\sum (y_i -\bar{y})^2 /(n-1)}
=1-\frac{n-1}{n-k-1}\times\frac{RSS}{TSS} = R^2 - \frac{k}{n-k-1} (1-R^2) $$

Adj-Rsquare 可能为负值
\(当R^2 < \frac{k}{n-k-1}时,Adj-Rsquare < 0 , 在这种情况下,R^2 失去意义,当做R^2=0处理\)。因此,Adj-Rquare 只适用于 y与 \(x_1,...,x_k \) 整体相关程度比较高的情况

4. SAS中 Weight和Freq的区别?

Freq 变量标识观测数显的次数;weight变量给出观测的相应权重。当每个观测的权重都是整数时,weight语句也可以用freq 语句代替

data demo;
input FW Value;
cards;
1 1
2 3
;

proc means data=demo n mean var std;
var value;
freq fw;
run;

proc means data=demo n mean var std;
var value;
weight fw;
run;

Reference:

最佳多元线性回归模型的选择

计量经济学 - Adj-Rsquare

一份不太简短的latex2e介绍 / 93分钟学会latex2e

Latex在线编辑器

googleChart生成公式图片

MarkDown业内跳转实现

Mallow's Cp

Base SAS软件使用手册 - 202

Partial Rsquare 1
2

MarkDown 与Mathjax冲突

如何在Markdown中输入公式


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM