可決系數R^2和方差膨脹因子VIF


然而很多時候,被篩選的特征在模型上線的預測效果並不理想,究其原因可能是由於特征篩選的偏差。

但還有一個顯著的因素,就是選取特征之間之間可能存在高度的多重共線性,導致模型對測試集預測能力不佳。

為了在篩選特征之初就避免陷入這樣的誤區。介紹一種VIF(方差膨脹檢驗)方法,來對特征之間的線性相關關系進行檢驗,從而選取到獨立性更好的特征,增強模型的解釋能力。

 

1.可決系數R^2

1.1什么是可決系數

可決系數,亦稱測定系數、決定系數、可決指數。

與復相關系數類似的,表示一個隨機變量與多個隨機變量關系的數字特征,用來反映回歸模式說明因變量變化可靠程度的一個統計指標,一般用符號“R”表示,

可定 義為已被模式中全部自變量說明的自變量的變差對自變量總變差的比值。

1.2總變異的分割

一個特定數值對於其平均值的偏離,稱為離差,而一變量的各數值對於其平均值的偏離,稱為變異。通常用離差平方和來描述變異程度。離差平方和又簡稱平方和(Sum of square)。在研究單變量的離中趨勢描述時,我們已經接觸了離差平方和的概念,樣本標准差的定義公式中就直接使用了上述概念。平方和被相應的自由度去除,得到平均平方,簡稱為均方(Mean square)。樣本標准差就是被自由度(n-1)所平均的x對於離差均方的算術平方根。下面我們將應用平方的概念去開發測度一個回歸方程擬合協變關系效果的量數。

先結合圖1分析一下在因變量y倚自變量x回歸前提下y值的離差。

y值對其平均數的離差可以看作是由兩部分合成的,一是y的回歸擬合值對平均數的離差(),另一是y值對於擬合值的離差()。

前者呈線性變化,在時,=0,x取值越偏離,這一離差就越大,存在着這樣的函數關系:

這一離差完全是由y倚x的回歸關系決定的,因而稱為已解釋離差(Explained deviation)。

后者呈隨機變化,與y倚x的回歸關系無關,因而稱為未解釋離差(Unexplained deviation)。

總離差與已解釋離差、未解釋離差的關系寫成公式是:

圖1圖1

總離差的平方和,簡稱總平方和,用SST表示,又稱作總變差(Total variation)。

已解釋離差的平方和,簡稱回歸平方和,用SSR表示,又稱作已解釋變差(Explained variation)。

未解釋離差的平方和,簡稱誤差平方和,用SSE表示,又稱作未解釋變差(Unexplained variation)。

可以證明,由總離差的分解公式能推出總變差的分解公式:

,或:SST=SSR+SSE。

將上式兩邊都除以,得:已解釋變差/總變量 +未解釋變差/總變差=1,即

這樣我們就把在絕對數意義上對總變差的分割,改換成在相對數意義上對總變差的分割,這對於研究回歸方程的擬合效果很有幫助。

1.3樣本可決系數

從公式(1)看到,若以總變差為基數,相對數表示的是回歸關系已經解釋的y值變異在其總變異中所占的比率,而相對數則表示回歸關系不能解釋的y值變異在總變異中所占的比率。

前者正是我們要尋求的測度回歸方程擬合y對x的協變關系效果的量數,稱為可決系數(Coefficient of determination)。

產生於樣本數據的可決系數是樣本可決系數,用r2表示。

在總體回歸分析中,相對於樣本可決系數的是總體可決系數,用表示。

因此,樣本可決系數的定義公式是:

1.4相關系數與可決系數的關系

可以推導到所以存在着這樣的關系:可決系數是相關系數的二次冪。

因此,也可以在求得可決系數的基礎上計算相關系數,方法是將可決系數開平方,至於平方根的符號,則取與回歸方程斜率b相同的符號。正是因為存在這樣的關系,我們用r2作為可決系數的符號,而沒有另用別的字母。

即然r和r2兩者問存有這樣的聯系,那么它們的描述分析作用是否相同呢?我們認為,盡管兩者對變量間協變關系的解釋有相通的一面,但是兩者間的區別也是不容忽視的。

首先,可決系數是在擬合回歸方程后進一步評價它的解釋作用,而回歸分析有其具體目的和假定前提。相關系數直接用於相關分析,它只描述變量間協變關系的密切程度,而不問哪個是自變量,哪個是因變量,相關分析也有3條假設前提:

(1) X和Y均為隨機變量。

(2) X和Y均服從正態分布,兩者不必相互獨立。

(3) 對於X所有取值,Y值的標准差都相等;對於Y所有取值,X值的標准差也都相等。

這樣看來,可決系數和相關系數所描述的問題性質不盡相同。

其次,可決系數取已解釋變差對總變差的比率形式,在運算上有直接的解釋意義。相關系數是沿交叉乘積和——協方差——相關系數的思想開發出來的,其最終公式形式不好作直接的解釋。盡管如此,在許多應用中,如果兩者都可以出現,我們還是更多地注意到r 值。

1.5總體可決系數

總體可決系數是在總體中關於Y總變異中總體回歸方程已經解釋的變異所占比重的描述量數。它用下式表示

的定義公式中,是圍繞總體回歸直線的方差,是圍繞總體平均數的方差。

作為總體參數,通常視為未知的,有待於用樣本統計量去估計。將的無偏估計量分別代入上式,即得到估計量的公式

不難發現,公式(2)與公式(4)略有不同,前者采用的是平方和比率的形式,而后者采用的是均方和比率的形式。

稱為經調整樣本可決系數(Adjusted coefficient of determination),它用於對總體可決系數進行點估計。

經調整可決系數平抑了方程中自變量數目的對解釋作用的誇大,尤其在多元回歸分析中,因為對同一樣本k個自變量的回歸方程總比k-1個自變量的回歸方程求得已解釋變差小

經調整的可決系數在k個自變量的方程中已解釋變差除以(n-k-1),而在(k-1)個自變量的方程中則除以(n-k-2)。

 2方差膨脹因子VIF

所謂VIF方法,計算難度並不高。在線性回歸方法里,應用最廣泛的就是最小二乘法(OLS),只不過我們對每個因子,用其他N個因子進行回歸解釋。

  其中有一個檢驗模型解釋能力的檢驗統計指標為R^2(樣本可決系數),R^2的大小決定了解釋變量對因變量的解釋能力。

而為了檢驗因子之間的線性相關關系,我們可以通過OLS對單一因子和解釋因子進行回歸,然后如果其R^2較小,說明此因子被其他因子解釋程度較低,線性相關程度較低。

   注:之所以不使用協方差計算相關性是由於協方差難以應用在多元線性相關情況下。給出VIF計算方法:

[公式] 

其中, [公式] 為第i個變量 [公式] 與其他全部變量 [公式] ([公式][公式] )的復相關系數,所謂復相關系數即可決系數 [公式] 的算術平方根,也即擬合優度的算術平方根。不過這個可決系數 [公式] 是指用[公式]做因變量,對其他全部[公式] ( [公式][公式] )做一個新的回歸以后得到的可決系數。

方差膨脹因子不僅和可決定系數有關,還跟皮爾遜相關系數(矩陣)有關系

[公式] ,

[公式] 不用說,就是對這個相關系數矩陣求行列式,即皮爾遜相關系數矩陣。例子如下

 

而 [公式] 則指的是將相關系數矩陣[公式]的第i行i列去掉,剩下的部分計算行列式。如果大學線代課沒全忘的話,這個東西就是余子式。

 

3、檢驗實踐 

  選取因子:EPS(每股收益),

  ROE(凈資產收益率),

  market_cap(市值),

  pb(市凈率),

  'net_profit_ratio'(銷售凈利率),

  'gross_income_ratio',(銷售毛利率)

  'quick_ratio',(速動比率)

  'current_ratio'(流動比率(單季度))

時間窗口選取:2012.3.4—2018.7.4

回望頻率:兩個月檢

1. 獲取數據:(鑒於篇幅僅展示2012-03-04當日前十支股票數據)

2. 缺失值檢驗:(鑒於篇幅僅展示2013-03-04當日檢驗情況)

返回0代表無缺失值,返回其他數字代表缺失值數量

 

 
3. 被檢驗兩兩特征間線性相關性預了解(圖例,鑒於篇幅僅展示2013-03-04當日檢驗情況)

 

 

案例圖表示,各特征對市值特征market_cap的解釋能力

藍色陰影部分,是回歸直線斜率95%的置信區間

 

4. 計算並獲取每個時點下被解釋特征與其余7個特征之間的回歸VIF值,繪制時間序列圖

分別是百分比堆積圖,和絕對數值圖(柱狀圖)。通過百分比堆積圖可以看出,各因子的VIF值全程比較穩定,所以其占據總體的百分比也穩定。柱狀圖可以看出各因子值細節。

5. 全段測試計算時間內,各特征VIF值均值,比較大小(圖例)

 

6. 相比而言quick_ratio這一特征的VIF在窗口期平均值較低,因而這就提示了我們如果在構建模型時,采用其余其中特征時可以考慮添加這一特征,增強模型的解釋能力。

4.方法總結與體會

  使用VIF進行檢驗的方法主要為,對某一特征和其余特征進行回歸,得到R^2,計算VIF,剔除因子中VIF高的特征,保留VIF較低的特征,以此類推,直到得到一個相關性較低的特征組合來增強模型的解釋能力。

  在實際測試過程中,並非要指定一個VIF閾值,比如某特征的VIF值超過閾值才剔除,而是通過觀察所有特征的VIF值,如果發現該值較大(顯著離群),剔除該特征即可。

本次我們的幾個特征表現都非常出色,VIF值穩定且沒有離群較大值,因此,沒能找到任何一個需要剔除的特征。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM