廣義線性模型

GLM是一般線性模型的擴展,它處順序和分類因變量。
所有的組件都是共有的三個組件:
隨機分量
系統分量
鏈接函數
===============================================
隨機分量
隨機分量跟隨響應Y的概率分布
例1. (Y1,Y2,。....YN)可能是正態的。在這種情況下,我們會說隨機分量是正態分布。該成分導致了普通回歸和方差分析。
例2. y是Bernoulli隨機變量(其值為0或1),即隨機分量為二項分布時,我們通常關注的是Logistic回歸模型或Proit模型。
例2. y是計數變量1,2,3,4,5,6等,即y具有泊松分布,此時的連接函數時ln(E(y)),這個對泊松分布取對數的操作就是泊松回歸模型。
============================================
系統分量
系統組件將解釋變量x1、x2、···、xk作為線性預測器:

============================================
連接函數
GLM的第三分量是隨機和系統分量之間的鏈路。它表示平均值µ=e(y)如何通過指定函數關系g(µ)到線性預測器中的解釋性變量

稱G(μ)為鏈接函數..
==============================================
廣義線性模型
Y被允許從指數型分布族中得到一個分布。
鏈路函數G(μI)是任何單調函數,並且定義了μI和Xβ之間的關系。

=================================================
邏輯回歸
因變量是二進制的
評估多個解釋變量(可以是數值型變量和/或類別型變量)對因變量的影響。
=============================================
模型含義:鳥類的巢址使用

響應變量是有巢的站點的概率,其中概率計算為p/(1-p),p是有巢的站點的比例。統計模型是

其中n是解釋變量的個數,誤差與p的二項分布一致。Odds的對數被稱為P的Logit變換。
=====================================
Logit的優勢
線性回歸模型的性質
logit(P):介於負無窮和正無窮之間
概率(P)約束在0到1之間的

直接與事件的幾率有關
====================================
前提:
必要的:
因變量是二進制的或二進位的。
這些病例是獨立的
自變量不是彼此的線性組合。
不必要的:
獨立變量各級相關變量的群體均值不在直線上,即不要求線性
誤差的方差不是恆定的,即不要求方差的同質性
正態,即不要求誤差分布是正態分布。
===========================================
例如:
通過年齡發展冠心病(CD)的風險(<60歲和>60歲)

病人中老年人的的比例28/11
病人中年輕人的的比例23/72
Odds ratio7.97
============================================
Logistic回歸模型
β是在X中增加一個單位的幾率對數
假設β=0的假設的測試

用比數比推測系數
是否擁有汽車作為收入的函數。
17個個人,14個擁有汽車,3個沒有。
原始數據:

===============================
X變化的邊際效應

斜率系數(單位)被解釋為"對數賠率"隨x變化的變化率...不是很有用
·我們也有興趣看到解釋變量對事件發生概率的影響

X對概率的邊緣效應是

基本上,“邊緣效應”的大小將取決於兩個事物
β 參數
X最原始值
=======================================
邊際效應:βXP(1-P)
考試及格或不及格取決於學習時數
先前的研究表明,α和β的估計值為

X初值在邊際效應中的重要性
即使在相同的β條件下,邊緣效應也是不同的,這取決於我們評價變化的地方。
從X的中心值開始變化對事件發生的概率的影響要比從非常低或非常高的X值開始時的影響更大。

β在確定邊際效應方面有多重要?
正如我們已經看到的,β越大,曲線越陡。
因此,β越大,X的增加對事件發生概率的影響越大。

==============================================================
怎樣評估模型參數?
最大似然估計
大多數統計方法被設計為最小化誤差
選擇最小化預測誤差的參數值:
最大似然估計尋找最有可能產生觀測分布的參數值。
例子:最大似然估計
用樣本(4,6)估計人口平均數(SD=1),假設假設μ=3.5。在此假設下,4的概率密度為0.3521,6的概率密度為0.017,兩概率的乘積是0.062。
接下來,假設假設為μ=4.0。在這種假設下,與兩個觀測相關的概率密度為0.3989和0.0540,而聯合概率密度函數為0.0215。在μ=4.5的假設下,概率密度分別為0.3521和0.1295,聯合概率密度為0.0456。
在μ=5.0的假設下,概率密度均為0.2420,聯合概率密度為0.0585。
在假設μ=5.5時,概率密度分別為0.1295和0.3521,聯合概率密度為0.0456。
的所有值的完整的聯合密度函數現在都繪制在較低的圖中。我們看到它在μ=5處達到峰值。
===============================================
聯合密度:
在極大似然估計中,我們選擇給出樣本中觀測值最大的聯合密度的值作為的估計。該值與獲取樣本中觀察結果的最大概率或最大似然相關
===============================================
似然函數
用其概率密度曲線定義模型:
其中,
是pdf的參數,在抽樣數據中為常數。
似然函數是

其中有n組樣本數據。
(注意,x和
往往是向量)。
====================================
示例:投幣式
N次獨立硬幣拋擲,k次在頭部
二項分布,參數p

給定數據:100項試驗,56頭:


數值解產生最大P=0.56
參數的最大似然估計
對於MLE,目標是確定最有可能的總體參數值。給定觀察到的樣本值
任何模型的參數(例如,線性回歸中的β,非線性模型中的a,b,c等)都可以用MLE估計。
似然函數是基於因變量分布的形狀
Anova,Pearson‘s r,t檢驗,回歸…假設樣因變量的殘差是正態分布的。在這些條件下,LSE(最小二乘估計)是最大似然估計。
如果因變量的殘差不是正態分布,則LSE不是MLE。
=======================================
對於logistics回歸的MLE
一個觀察

似然函數


估計最大似然
在Logistic回歸中,MLE是一種迭代算法,它從初始的任意“猜測”Logit系數開始,由MLE算法決定方向, Logit系數的大小變化,這將增加LL。
在對這個初始函數進行估計之后,對殘差進行測試,用改進的函數進行重新估計,然后重復這個過程(通常大約六次),直到收斂為止。 達到了預期效果(也就是說,直到LL沒有顯著變化為止)。

=======================================
為什么不使用普通最小二乘(OLS)?
在Logistic回歸中,相關的結果是事件發生的概率。
由於因變量(y)在0和1之間是有界的,所以OLS對二進制結果變量是不合適的。

====================================
全模型的擬合優度--似然比檢驗(LR)
我們比較模型中似然函數的值(與變量)和模型中似然函數的值(不含變量)。試驗

其中,
是空模型的對數似然(僅包括截距),
是全模型的對數似然((考慮到所有可變參數))
統計量分布為χ2,自由度與我們所限制的系數相同。
========================================
擬合優度-相似的
指全平方之和
指回歸平方和
似然比指數


==================================
Hosmer-Lemesho統計量擬合優度
==============================
擬合優度-沃爾德試驗
用WALD檢驗模型中各系數β的統計顯着性。Wald測試計算Z統計量,即:

然后對這個z值進行平方,得到一個帶有卡方分布的Wald統計量.
然而,有幾位作者發現了使用Wald統計數據的問題。
===========================
逐步回歸分析
簡約原則:使用所需的最小數量的參數來適當地表示數據。
擬合優度隨K(參數的數量)的增加而增加,折中。
低K:不足,錯過重要影響
高K值:超適應,包括雜散效應和“噪音”
簡約-在這兩種效果之間保持適當的平衡,這樣你就可以在不同的復制中重復結果。
=============================
Akaike信息准則
是為每個模型計算的數字。
提供了擬合模型與未知機制之間“距離”的估計,這個機制是產生真正數據的機制(“真相”)。
AIC值越低,模型越好。AIC值是相對的。
只能對完全相同的因變量集進行比較。
==========================
AIC=-2ln(似然)+2K
K=模型中的參數的數目,包括1個常數1和1個誤差項

1.用於最小二乘回歸、方差分析等

對於小樣本(n/k<40),使用AICC,對小樣本進行AIC校正。

===================================
何時使用AIC
主要是觀察性研究,特別是具有大量變量的研究。
一般不會在實驗研究中,因為你通常測試的效果相對較少,而且標准假設檢驗效果相當好。
======================================
回想一下什么是廣義線性模型
y被允許從指數型分布族中得到一個分布
================================
一般線性模型
因變量是連續的,分布是正態的。
鏈接函數就是身份函數。

=====================
邏輯回歸
因變量是離散的,分布是二項分布。
鏈接函數是logit。

===================
負二項分布
因變量是計數,分布是負二項分布。
鏈接函數是自然對數。

==========================
泊松回歸
因變量是一個計數,分布是泊松分布。
鏈接函數是自然對數。

==================================
Poisson回歸模型

響應變量y的泊松分布取決於預測變量。
默認的鏈接函數是log。

================================================
過分散
廣義線性模型(GLMS)是一種簡單、方便的計數數據模型,但它們假定方差是均值的一個指定函數。
過分散是二項分布和泊松數據偶爾出現的現象。對於泊松數據,當響應Y的方差大於泊松方差時,即如果模型是泊松分布,如果模型完全擬合則y的方差與均值應該都相同是一個定值λ,但是有時候觀測值得到的方差和均值不同,這就是過分散。
表示過分散(其中D是偏差,n是樣本大小,p是變量數)
================================
廣義混合模型(GLMM):空間自相關
廣義線性模型的一種推廣,其中線性預測器除了通常的固定效應外,還包含隨機效應。
計數數據的零截斷和零膨脹模型
零截斷意味着響應變量的值不能為0。
醫學文獻中的一個典型例子是病人住院的時間。
要獲取生態數據,可以考慮一些響應變量,如鯨魚在重新淹沒前到達水面的時間、魚類上的鰭射線計數(例如用於魚群識別)、海豚群的大小、動物的年齡(以年數或月為單位),或道路上殺死的動物的身體停留在路上的天數。
零膨脹數據在生態學研究中更為普遍。在這種情況下,根據泊松分布或負二項分布,響應變量包含的零點比預期的多。
=============================================
零截尾泊松分布
用於泊松分布的PDF:

為0的概率:

用於零截尾泊松分布的PDF:

=====================================================
零膨脹的GLM:為什么有這么多的零。
棲息地不合適
糟糕的實驗設計或抽樣實踐
計算冬季懸崖上的海雀數量。很可能所有的樣品都是0,因為這是一個錯誤的季節,他們都在海上。另一個設計錯誤是采樣時間太短或采樣面積太小。
觀測者錯誤
有些鳥類看起來很相似,或者很難被發現。經驗越少的觀察者,他/她就越有可能獲得難以識別的鳥類物種的零計數。或者,觀察者可能是經驗豐富的,但是在黑暗的日子里很難在黑暗的領域里發現一只微小的黑暗的鳥。
“動物”錯誤
這意味着棲息地是合適的,但該地點並沒有被利用。
====================================
zip(Poisson)和ZINB(負二項式)模型
略
==================
ZIP模型
假設計數yi遵循泊松分布有期望值μi
用於泊松分布的PDF:

為0的概率:

假設Yi為假零的概率二項分布,概率πi,以下是ZIP模型的概率分布

在PoissonGLM中,我們將正計數數據的平均數μI建模為

因此,協變量被用來模擬正計數。假零的概率是多少?πi?最簡單的方法是使用logistic回歸:

==========================================================
條件logistic回歸
用於配對病例對照研究,例如:一個病例(讀病)受試者與許多對照組(讀非疾病)是基於一些匹配或混淆因素。
條件logistic回歸
黑鼻猴科由一只公猴和幾只母猴組成。單身男性(通常是青少年)有時會向家庭中的成年男性發起挑戰,以取得控制權。
在一群黑鼻子猴中,大約有6-7個家庭,有42-60個個體。在過去的10年里,家庭成員不斷變化。在此期間,共觀察到48項挑戰行為。
男性在一個家庭中受到挑戰的概率,與其他5-6名未受挑戰的男性相比,與家庭中的女性數量(F_Tot)、可用女性數量(未在懷孕或哺乳期)(F_Ava)以及男性的等級有關。
==============================================
多元Logistic
它是一種將Logistic回歸推廣到多類問題的分類方法,即具有兩個以上可能的離散結果。
它假設觀測到的特征和一些特定問題的參數的線性組合可以用來確定因變量的每個特定結果的概率。
它還有其他一些名字:
多元Logistic回歸
多分類logistic回歸
Softmax回歸
多項Logit
=================================================
理論的說明:略
多元Logistic:略
有序Logistic回歸:略
=============================================
多元線性回歸:β1的解釋是,其他x2----Xn都不發生改變(即這些變量被控制),只有x1發生改變,單位改變的x1使得y改變的該變量。用最小二乘法估計矩陣。只有所有向量都是線性獨立才能計算特征值,所以之前要判斷各變量之間確實沒有多元共線性。
======================================
看整體x:決定系數是用於評判所有x變量對於y是不是有貢獻對於多元線性模型的理解,可以把它認為是多元方差分析,它的決定系數是:
如果加入更多變量,則決定系數變更大,所以這就是R square不足的地方。於是提出
用來平衡模型的復雜程度。之前用F檢驗,檢測一個β斜率,現在用F檢驗檢測多個β斜率。
======================================
看單個x:貢獻率:也可以單獨挑出來單個變量,評判單變量對於y是否有貢獻

看多個x:看兩項合起來的因素組,對y的貢獻情況,介於上兩者之間。
==========================================
如果x有高次項,應該先設定成y=β0+β1x+β2x^2+β3x^3+β4x^4,而不是上來就寫y=β0+β1x+β4x^4,因為存在高次項,所以一定會有多重共線性形成,即線性相關性。可以使用以下通式:

Piecewise線性關系就是每一段的斜率都不相同
Dummy variables用於比較多個組,把一個組作為基礎組,其他組作為比較組,然后比較,它的解釋是自變量是每一個斜率都是兩類別變量下的連續值的差距。

=====================
數據轉換
轉換為正態分布
轉換為方差齊性
轉換為更簡單的模型
不同y值類型與對應方程的選擇:

