目錄##
- 變量篩選方法
- 預測與回歸診斷
- 其他統計量
- SAS中Weight和Freq的區別
- Refreence
1. 變量篩選方法
- 全回歸模型 (None)
- 向前發(Forward) -- 逐步引入法
- 向后發(Backward) --逐步剔除法
- 逐步篩選法 (Stepwise)
- 最大Rsquare增量法(Maxr)
- 最小Rsquare增量法(Minr)
- Rsquare選擇法(Rsquare)
- 修正Rsquare選擇法(Adjrsq)
- Mallow的\( C_p \)選擇法(CP)
- \(C_p\)衡量回歸模型的擬合效果(fittness),值越小,表示模型越精確
- \(\hat\sigma\) 代表預測的響應變量方差, d 代表預測變量的個數\(X_1,..,X_d\)
$$ C_p = \frac{1}{n}(RSS + 2d\hat\sigma^2) $$
2. 預測與回歸診斷##
2.1. 杠桿率: 刻畫第i個觀測點距離中心的遠近 (\( x_ i\) 為設計矩陣X的第i行)
$$ h _ i = x _ i (X'X)^{-1} x'_i $$
2.2. CookD統計量 (影響診斷統計量)
- 探查對回歸估計或預測具有很大影響的觀測點,即強影響點。其中:b(i)是刪掉第i個觀測后,從余下的n-1個觀測得出的參數\( \beta \)的最小二乘估計, k是模型中參數的個數,\( t_i\) 是學生化殘差
$$ CookD = \frac{(b(i) - b)(X'X)(b(i)-b) }{s^2k} = t_i^2\frac{h_i}{(1-h_i)k} $$
2.3.共線診斷
當某個回歸變量近似地是模型中綺月變量的線性組合是,得到的參數估計是不穩定的,而且估計量的方差很大。這種問題被稱為共線性(colinearity) 或者多重共線性(multicolinearity).共線性診斷就是找出那些變量間存在共線關系:
- 特征值法:把\( X'X \)變換為對角線為1 的矩陣,然后求特征值和特征向量,若有r個特征值近似為0,則相應的r個變量有強共線關系
- 條件指數(Condition Index):最大特征值和每個特征值之比的平方根。最大條件指數為矩陣X的條件數。當條件數較大是,這組數據被認為是病態數據。當條件數很大時,認為有嚴重共線性。
- 方差膨脹因子:記\( C=(c_{ij})=(X'X)^{-1} \), R(i)為變量\(X_i\)對其余m-1個自變量的復相關系數,則有:
$$ c_{ii} = \frac{1}{(1- R^2(i))} (i=1,2,...,m) $$
\( c_{ii}\)被稱為方差膨脹因子。- 參數的容許度定義為: $$ TOL(i) = 1 - R^2(i) $$ $$ VIF = \frac {1}{TOL} $$
3. 其他統計量
3.1 決定系數\(R^2\)定義
$$ R^2 = 1 -\frac{RSS}{TSS} = 1 - \frac{\sum e_i^2}{\sum (y_i -\bar{y})^2} $$
3.2 修正的決定系數 Adj-Rsquare 定義
$$ Adj-Rquare = 1 - \frac{\sum e_i^2 / (n-k-1)}{\sum (y_i -\bar{y})^2 /(n-1)}
=1-\frac{n-1}{n-k-1}\times\frac{RSS}{TSS} = R^2 - \frac{k}{n-k-1} (1-R^2) $$
Adj-Rsquare 可能為負值,
\(當R^2 < \frac{k}{n-k-1}時,Adj-Rsquare < 0 , 在這種情況下,R^2 失去意義,當做R^2=0處理\)。因此,Adj-Rquare 只適用於 y與 \(x_1,...,x_k \) 整體相關程度比較高的情況
4. SAS中 Weight和Freq的區別?
Freq 變量標識觀測數顯的次數;weight變量給出觀測的相應權重。當每個觀測的權重都是整數時,weight語句也可以用freq 語句代替
data demo;
input FW Value;
cards;
1 1
2 3
;
proc means data=demo n mean var std;
var value;
freq fw;
run;
proc means data=demo n mean var std;
var value;
weight fw;
run;
Reference:
計量經濟學 - Adj-Rsquare
