嶺回歸


Ridge Regression嶺回歸

數值計算方法的“穩定性”是指在計算過程中舍入誤差是可以控制的。

對於有些矩陣,矩陣中某個元素的一個很小的變動,會引起最后計算結果誤差很大,這種矩陣稱為“病態矩陣”。有些時候不正確的計算方法也會使一個正常的矩陣在運算中表現出病態。對於高斯消去法來說,如果主元(即對角線上的元素)上的元素很小,在計算時就會表現出病態的特征。

回歸分析中常用的最小二乘法是一種無偏估計。

當X列滿秩時,有

X+表示X的廣義逆(或叫偽逆)。

當X不是列滿秩,或者某些列之間的線性相關性比較大時,XTX的行列式接近於0,即XTX接近於奇異,計算(XTX)-1時誤差會很大。此時傳統的最小二乘法缺乏穩定性與可靠性。

嶺回歸是對最小二乘回歸的一種補充,它損失了無偏性,來換取高的數值穩定性,從而得到較高的計算精度。

當XTX的行列式接近於0時,我們將其主對角元素都加上一個數k,可以使矩陣為奇異的風險大降低。於是:

     (I是單位矩陣)

隨着k的增大,B(k)中各元素bi(k)的絕對值均趨於不斷變小,它們相對於正確值bi的偏差也越來越大。k趨於無窮大時,B(k)趨於0。b(k)隨k的改變而變化的軌跡,就稱為嶺跡。實際計算中可選非常多的k值,做出一個嶺跡圖,看看這個圖在取哪個值的時候變穩定了,那就確定k值了。

X不滿足列滿秩,換句話就是說樣本向量之間具有高度的相關性(如果每一列是一個向量的話)。遇到列向量相關的情形,嶺回歸是一種處理方法,也可以用主成分分析PCA來進行降維。

原文來自:博客園(華夏35度)http://www.cnblogs.com/zhangchaoyang 作者:Orisun

兩個角度看嶺回歸 -- 方差擴大 + 2范數懲罰

=====================

方差擴大,在這里,你將看到嶺的概念

=====================

在回歸分析中最小二乘法是最常用的方法,使用最小二乘法的一個前提是|X'X|不為零,即矩陣X'X非奇異,當所有變量之間有較強的線性相關性時,或者變量之間的數據變化比較小或者部分變量之間有線性相關性時,矩陣X'X的行列式比較小,甚至趨近於0,一般在實際應用中處理:當<0.01時常被稱為病態矩陣,它表明最小二乘法並非在各方面都盡善盡美,因為這種矩陣在計算過程中極易造成約數誤差,因此得到的數據往往缺乏穩定性和可靠性。

嶺回歸是在自變量信息矩陣的主對角線元素上人為地加入一個非負因子,從而使回歸系數的估計稍有偏差、而估計的穩定性卻可能明顯提高的一種回歸分析方法,它是最小二乘法的一種補充,嶺回歸可以修復病態矩陣,達到較好的效果。

線性回歸分析的正規方程組可以寫成:

                            X'Xb = X'Y                                        (1)

其最小平方解則為:

b = (X'X)-1X'Y                                     (2)

式(1)和(2)中的為自變量的n x m階矩陣,X'為X的轉置,(X'X)為對稱的m x m方陣,通常稱為信息矩陣(協方差矩陣),(X'X)-1為(X'X)的逆陣,Y為因變量的nx1向量,b為待解元,即回歸系數的mx1向量,這里的n為觀察值組數,m為待估計的回歸系數個數。當|X'X|約等於0時,矩陣X'X為病態矩陣,這樣最小偏二乘法就會產生較大的誤差,b^是b的無偏估計,但很不穩定,在具體取值上與真值有較大的偏差,甚至有時會出現與實際經濟意義不符的正負號。

如果我們在的主對角線元素上加上一個非負因子,即令:

                         b(k)=    (X'X + kIm-1X'Y                  (3)

 

(Im為單位矩陣),那么b(k)和b有何不同呢(下文在這些統計數后均加標記(k),便於與最小二乘法,即k=0的統計數相區別)?最先研究這一問題的是Hoerl和Kennard以及Marquardt[5],他們的基本結論是:b(k)是k的非線性函數;k=0時,b(k)=b同為最小平方估計數;而后,隨着k的增大,b(k)中各元素bi(k)的絕對值均趨於不斷變小(由於自變數間的相關,個別bi(k)可能有小范圍的向上波動或改變正、負號),它們對bi的偏差也將愈來愈大;如果k->∞,則b(k)->0。b(k)隨k的改變而變化的軌跡,就稱為嶺跡,參見圖1,嶺跡圖表明,的加入使成為回歸系數的有偏估計數。

總結:

嶺回歸也是用於處理自變量之間高度相關的情形。只是跟主成分回歸的具體估計方法不同。線性回歸的計算用的是最小二乘估計法,當自變量之間高度相關時,最小二乘回歸估計的參數估計值會不穩定,這時如果在公式里加點東西,讓它變得穩定,那就解決了這一問題了。嶺回歸就是這個思想,把最小二乘估計里加個k,改變它的估計值,使估計結果變穩定。至於k應該多大呢?可以根據嶺跡圖來判斷,估計這就是嶺回歸名稱的由來。你可以選非常多的k值,可以做出一個嶺跡圖,看看這個圖在取哪個值的時候變穩定了,那就確定k值了,然后整個參數估計不穩定的問題就解決了。

 

=====================

帶二范數懲罰的最小二乘回歸

=====================

是的,嶺回歸就是一個帶二范數懲罰的最小二乘回歸,和帶一范數懲罰的最小二乘回歸LASSO有的一拼啊

 

作者:親愛的龍哥
鏈接:https://www.zhihu.com/question/28221429/answer/50909208
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。

@董可人我今天要是再失眠明天我也不會讓你睡好的!
最小二乘法是對普通線性回歸參數估計的一種方法,目標是是loss function達到最小,而此時的loss function是誤差平方和。
嶺回歸和普通線性回歸的區別,我們可以從三種方式來看。
1. 最優化問題的不同 (我比較懶,公式就貼照片了),
對於嶺回歸,我們的最優化問題多了后面這些beta的平方和。

多元線性回歸的OLS回歸不僅僅可以看成是對loss function的最小化,得出的結果也是Y在X的線性空間上的投影。

2 從多變量回歸的變量選擇來說,普通的多元線性回歸要做的是變量的剔除和篩選,而嶺回歸是一種shrinkage的方法,就是收縮。這是什么意思呢, 比如做普通線性回歸時候,如果某個變量t檢驗不顯著,我們通常會將它剔除再做回歸,如此往復(stepwise),最終篩選留下得到一個我們滿意回歸方程,但是在做嶺回歸的時候,我們並沒有做變量的剔除,而是將這個變量的系數beta向0”收縮“,使得這個變量在回歸方程中的影響變的很小。 於普通的多元線性回歸相比,嶺回歸的變化更加smooth,或者說continuous。從這點上來說活,嶺回歸只是shrinkage methods中的一種,大家常說的lasso回歸(貌似叫套索回歸)其實也屬於這種方法。

3. 從計算的角度,有人提到了多元線性回歸的OLS 估計是 , 當存在很強的多重共線性時X'X是不可逆(或者接近不可逆)的,但是嶺回歸系數估計是
此時雖然對系數的估計是有偏的,但是提高了穩定性。
 
 
作者:子元
鏈接:https://www.zhihu.com/question/28221429/answer/53858036
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。

關於穩定性再補充一下。當回歸變量 X不是列滿秩的時候,我們固然需要通過正則化來獲得唯一解( \min_\beta \|y-X\beta\|^2\longrightarrow\min_\beta \|y-X\beta\|^2+\lambda\|\beta\|^2)。但即使 X列滿秩,我們來看看當有其中兩列相關程度很高時,會發生什么。

比方說一個自變量是身高 x_1,一個自變量是體重 x_2,假設因變量 y是某種性激素的水平(或者別的什么跟身體發育相關的東西,隨便舉的例子)。雖然我們擬合后能得到唯一解 \hat{y}=ax_1+bx_2+c,但由於 x_1x_2高度相關,所以 ab之間存在互相抵消的效應:你可以把 a弄成一個很大的正數,同時把 b弄成一個絕對值很大的負數,最終 \hat{y}可能不會改變多少。這會導致用不同人群擬合出來的 ab差別可能會很大,模型的可解釋性就大大降低了。怎么辦?最簡單就是給一個限制,令 a^2+b^2\le t,這正好就是嶺回歸。

The Elements of Statistical Learning 第63頁有提到這一點:


我覺得這個才是嶺回歸的motivation,正態先驗充其量只是一個概率解釋。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM