回歸分析總結
============================================================
回歸的目的是用因(x)與果(y)之間的關系,最后達到用因來預測果的目的,相關分析中所涉及的變量x和y都是隨機變量;回歸分析中,因變量y是隨機變量,自變量x可以是隨機變量,也可以是非隨機的確定變量。
x是沒有誤差的固定變量,或其誤差可以忽略,而y是隨機變量,且有隨機誤差。
==================================================
前提:
在回歸中,x是一個觀察的已知常數,β是未知常數,y是隨機變量,無論何種情況下,誤差項都是
線性模型假設:
1.先畫散點圖判斷y與x是線性關系的
2.y1、y2、y3....yn是獨立的,都是正態分布的,
3.誤差項也都是獨立的且正態分布的
4.殘差是方差齊性的,就是不會隨x變化而變化等,可以利用散點圖來判斷:
也可以使用直方圖來判斷:
===================================================
判定系數等於相關系數的平方:
就一般計算程序來說,是先求出相關系數 r並對其進行假設檢驗,如果r顯著並有進行回歸分析之必要,再建立回歸方程。
=====================================================
最小二乘法來估計參數,就是使得實際值與估計值的差距的平方最小。
β可以被已知的未知數計算得到是無偏估計的值。但是用最小二乘法可以得到最好的線性無偏估計量,因為變異比較小。所以這種方法就是最穩定的最通用的方法。
如果只有一個β1,也就是只有y與x1,則使用兩樣本t檢驗和回歸分析是一樣的。因為兩樣本t檢驗就可以計算β的置信區間,因此也可以在該回歸方程中計算β的置信區間。用β來看y與x的相關性,如果y與x有相關性,則β就不為零。
另一種估計參數方法是最大似然函數,用此法估計參數值是一樣的,但是僅對於y是連續值情況。
===================================================
分類:
之前討論y是正態分布,然后將怎么做回歸分析
現在討論y不是正態分布,怎么做回歸分析
0、1使用
或者0、1、2、3、4、5使用泊松分布
因為y是count data,也就是泊松分布,所以隨機項也是泊松分布系統項必須是線性模型,
,所以在連接函數上下功夫,目的是將E(y)與系統項建立關系。
於是有以下三類:
1.(Y1,Y2,。....YN)可能是正態的。在這種情況下,我們會說隨機分量是正態分布。該成分導致了普通回歸和方差分析。
2.y是Bernoulli隨機變量(其值為0或1),即隨機分量為二項分布時,我們通常關注的是Logistic回歸模型或Proit模型。
3.y是計數變量1,2,3,4,5,6等,即y具有泊松分布,此時的連接函數時ln(E(y)),這個對泊松分布取對數的操作就是泊松回歸模型。
===========================================================
隨機項是正態時,在一次方項前的參數是線性效應
在二次方項前的參數是曲線效應
具有一個自變量的三階模型
1.因變量和1個自變量之間的關系具有“波形”。
2如果出現一個曲率翻轉時使用該模型
==========================================================
隨機項是二項分布時,就是y值通常只有0或1時,y是Bernoulli隨機變量(其值為0或1),即隨機分量為二項分布時,我們通常關注的是Logistic回歸模型或log-linear((就是一步步去做泊松分布)模型。也可用卡方檢驗
用線性方程估計的y是概率值,在僅知道線性回歸的情況下,最終得到的回歸方程是這樣的,雖然觀察值只有0和1,但是根據這些點到函數圖像的殘差平方最小還是可以得出這個回歸曲線,但是這與實際情況不符,因為對於二項分布的結果,僅有0和1,沒有其他更大或者更小的值,所以就有了logistics回歸。
Odds勝算
Odds=成功/失敗=p/(1-p);logistics回歸就是log(odds)=βx+β0,即log(p/(1-p))=βx+β0
,此梯度就是斜率。它取決於β和x值,如圖所示,隨x變化而變化,或者,隨β變化而變化:
所以沒有辦法用最小平方法,因為觀察數據不是0就是1,不管是1還是1都會使得ln()函數無法表達出來。所以使用最大似然估計
前提:
- y是1或0。
- x是獨立的
3.自變量不是彼此的線性組合。
4.圖像不是線性的。
5.不要求方差的同質性,因為方差本來就不是同質的。
6.不要求誤差分布是正態分布,本來就是針對二項分布的。
分類:
1.如果y是順序變量,比如疾病輕中重,有序logistics三元回歸ordered logistics regression,具體上是兩個比較疊加,一個是輕度和中度;一個是中度和重度。
2.如果y是類別變量,比如判別有病或者沒病,那就是二元logistics回歸
3.條件logistics回歸就是基於不同條件下的logistics回歸,如圖,分成三組:
===========================================================
隨機項是計數變量1,2,3,4,5,6等,即y具有泊松分布,此時的連接函數時ln(E(y)),這個對泊松分布取對數的操作就是泊松回歸模型。
泊松分布:
- 一段時間與另一段時間成比例
- 一段時間發生次數與時間長短成比例
- 在極短的時間內發生的次數為零
二項分布的極端狀況,n趨近無窮大,p趨近於0
公式也可以由二項分布化簡而來
過分散是二項分布和泊松數據偶爾出現的現象。對於泊松數據,當響應Y的方差大於泊松方差時,即如果模型是泊松分布,如果模型完全擬合則y的方差與均值應該都相同是一個定值λ,但是有時候觀測值得到的方差和均值不同,這就是過分散。
計數數據的零截斷和零膨脹模型
零截斷意味着響應變量的值不能為0。零膨脹是指計數中有很多零。如果計數資料中含有大量的“0”,則考慮使用零膨脹泊松模型(zero inflated poisson regression, ZIP)或者零膨脹負二項回歸
=========================================================
判斷有幾個變量:
1.做Cp值,如圖,如果直線在某處停止,停止處的橫坐標便是真實存在幾個變量值。
- 分別計算一個變量的AIC或BIC,兩個變量的AIC或BIC....n個變量的AIC或BIC,比較之后,如果AIC或BIC比較小則證明這是真實的變量值。
多元線性回歸:β1的解釋是,其他x2----Xn都不發生改變(即這些變量被控制),只有x1發生改變,單位改變的x1使得y改變的該變量。用最小二乘法估計矩陣。只有所有向量都是線性獨立才能計算特征值,所以之前要判斷各變量之間確實沒有多元共線性。
======================================
看整體x:決定系數是用於評判所有x變量對於y是不是有貢獻對於多元線性模型的理解,可以把它認為是多元方差分析,它的決定系數是:
如果加入更多變量,則決定系數變更大,所以這就是R square不足的地方。於是提出
用來平衡模型的復雜程度。之前用F檢驗,檢測一個β斜率,現在用F檢驗檢測多個β斜率。
======================================
看單個x:貢獻率:也可以單獨挑出來單個變量,評判單變量對於y是否有貢獻
看多個x:看兩項合起來的因素組,對y的貢獻情況,介於上兩者之間。
變異分割中的分數[a]就是該變量分擔多少變異
==========================================
如果x有高次項,應該先設定成y=β0+β1x+β2x^2+β3x^3+β4x^4,而不是上來就寫y=β0+β1x+β4x^4,因為存在高次項,所以一定會有多重共線性形成,即線性相關性。可以使用以下通式:
Piecewise線性關系就是每一段的斜率都不相同
Dummy variables用於比較多個組,把一個組作為基礎組,其他組作為比較組,然后比較,它的解釋是自變量是每一個斜率都是兩類別變量下的連續值的差距。
=====================
數據轉換
轉換為正態分布
轉換為方差齊性
轉換為更簡單的模型
不同y值類型與對應方程的選擇:
==========================================================
ANOVA是一種特殊的線性回歸
如圖:線性回歸和線性相關之間的關系:r只和斜率的正負號相同,但是不等同於斜率。r取決於x的變異,y的變異和斜率大小。r只看與擬合的圖像重合率有多高。
不做任何操作的變異放在分母,操作了之后的變異放在分子,如果回歸比較好,那么SSE會比較好。
線性關系比較好的意思就是實際上的點能夠match到我設定的模型上。
~N(0,1)
據此就可以求出置信區間。
如果x或y出現計數變量,有以下三種情況,
情況一:X或Y都是計數變量
情況二:X是計數變量,Y是連續變量(方差分析)
情況三:X是連續變量,Y是計數變量
普通的r是person correlation coefficient
Spearman correlation coefficient 是將數值變成數值大小對應的序號。
通常都用。
=========================================
在ANOVA中:
只有一個x時有這樣的結論:
T分布與F分布的關系是,從圖示上可以認為是將t分布負半軸的部分加和到正半軸來,就變成了F分布:
SSR是1,是因為SSR是,在這里面X是已知的,只有β是變動值,所以是1.
而SSE是n-2,是因為SSE本來來自n個y值,但是該n個值受到兩個估計參數的限制
====================================================
多元回歸模型的評估步驟
- 檢測變量類型
多重決定系數衡量了所有自變量的總體貢獻,之后的adj R square是修正值。
- 進行殘差分析
用於測試函數表達,是線性的還是非線性的,比如加入高次項等。評估違反假設的情況,是何種類型,比如不獨立等。
- 測試參數顯著性-整個模型and單個參數
使用F檢測(SSR/SSE)來檢測模型顯著性,同方差分析中對斜率的判別。
- 測試多重共線性
多重共線性的X變量會導致不穩定參數
判定高度共線性方法:
兩兩之間下有兩種方法
1.協方差矩陣
2.散點圖
除此之外還有
3.VIF:
如圖所示,僅在X內部計算,與Y沒有關系
對X1有相關系數R1,就有VIF1
對X2有相關系數R2,就有VIF2
對X3有相關系數R3,就有VIF3
Max{VIF}>10,則是有危害性的共線性,也就是只要其中的R有任何一個大於0.9那么其對應的VIF就會大於10;只要其中的R有任何一個大於0.8那么其對應的VIF就會大於5 ;