多元線性回歸變量篩選


目錄##

  1. 變量篩選方法
  2. 預測與回歸診斷
  3. 其他統計量
  4. SAS中Weight和Freq的區別
  5. Refreence

1. 變量篩選方法

  • 全回歸模型 (None)
  • 向前發(Forward) -- 逐步引入法
  • 向后發(Backward) --逐步剔除法
  • 逐步篩選法 (Stepwise)
  • 最大Rsquare增量法(Maxr)
  • 最小Rsquare增量法(Minr)
  • Rsquare選擇法(Rsquare)
  • 修正Rsquare選擇法(Adjrsq)
  • Mallow的\( C_p \)選擇法(CP)
    • \(C_p\)衡量回歸模型的擬合效果(fittness),值越小,表示模型越精確
    • \(\hat\sigma\) 代表預測的響應變量方差, d 代表預測變量的個數\(X_1,..,X_d\)
      $$ C_p = \frac{1}{n}(RSS + 2d\hat\sigma^2) $$

2. 預測與回歸診斷##

2.1. 杠桿率: 刻畫第i個觀測點距離中心的遠近 (\( x_ i\) 為設計矩陣X的第i行)

$$ h _ i = x _ i (X'X)^{-1} x'_i $$

2.2. CookD統計量 (影響診斷統計量)

  • 探查對回歸估計或預測具有很大影響的觀測點,即強影響點。其中:b(i)是刪掉第i個觀測后,從余下的n-1個觀測得出的參數\( \beta \)的最小二乘估計, k是模型中參數的個數,\( t_i\) 是學生化殘差
    $$ CookD = \frac{(b(i) - b)(X'X)(b(i)-b) }{s^2k} = t_i^2\frac{h_i}{(1-h_i)k} $$

2.3.共線診斷

當某個回歸變量近似地是模型中綺月變量的線性組合是,得到的參數估計是不穩定的,而且估計量的方差很大。這種問題被稱為共線性(colinearity) 或者多重共線性(multicolinearity).共線性診斷就是找出那些變量間存在共線關系:

  • 特征值法:把\( X'X \)變換為對角線為1 的矩陣,然后求特征值和特征向量,若有r個特征值近似為0,則相應的r個變量有強共線關系
  • 條件指數(Condition Index):最大特征值和每個特征值之比的平方根。最大條件指數為矩陣X的條件數。當條件數較大是,這組數據被認為是病態數據。當條件數很大時,認為有嚴重共線性。
  • 方差膨脹因子:記\( C=(c_{ij})=(X'X)^{-1} \), R(i)為變量\(X_i\)對其余m-1個自變量的復相關系數,則有:
    $$ c_{ii} = \frac{1}{(1- R^2(i))} (i=1,2,...,m) $$
    \( c_{ii}\)被稱為方差膨脹因子。
    • 參數的容許度定義為: $$ TOL(i) = 1 - R^2(i) $$ $$ VIF = \frac {1}{TOL} $$

3. 其他統計量

3.1 決定系數\(R^2\)定義

$$ R^2 = 1 -\frac{RSS}{TSS} = 1 - \frac{\sum e_i^2}{\sum (y_i -\bar{y})^2} $$

3.2 修正的決定系數 Adj-Rsquare 定義

$$ Adj-Rquare = 1 - \frac{\sum e_i^2 / (n-k-1)}{\sum (y_i -\bar{y})^2 /(n-1)}
=1-\frac{n-1}{n-k-1}\times\frac{RSS}{TSS} = R^2 - \frac{k}{n-k-1} (1-R^2) $$

Adj-Rsquare 可能為負值
\(當R^2 < \frac{k}{n-k-1}時,Adj-Rsquare < 0 , 在這種情況下,R^2 失去意義,當做R^2=0處理\)。因此,Adj-Rquare 只適用於 y與 \(x_1,...,x_k \) 整體相關程度比較高的情況

4. SAS中 Weight和Freq的區別?

Freq 變量標識觀測數顯的次數;weight變量給出觀測的相應權重。當每個觀測的權重都是整數時,weight語句也可以用freq 語句代替

data demo;
input FW Value;
cards;
1 1
2 3
;

proc means data=demo n mean var std;
var value;
freq fw;
run;

proc means data=demo n mean var std;
var value;
weight fw;
run;

Reference:

最佳多元線性回歸模型的選擇

計量經濟學 - Adj-Rsquare

一份不太簡短的latex2e介紹 / 93分鍾學會latex2e

Latex在線編輯器

googleChart生成公式圖片

MarkDown業內跳轉實現

Mallow's Cp

Base SAS軟件使用手冊 - 202

Partial Rsquare 1
2

MarkDown 與Mathjax沖突

如何在Markdown中輸入公式


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM