logistic回歸模型


為什么要用logistic回歸?

在醫學領域,我們經常會遇到這樣的數據:患病與未患病、生存與死亡、陰性與陽性……這些結果都是二分類變量。如果要研究自變量與分類型因變量的關系,用多元線性回歸模型是束手無策的,因為多元線性回歸模型研究連續性因變量,並且要求總體(因變量)分布類型為正態分布。因此,當因變量為分類變量時,需要使用logistic回歸模型。

 

 

什么是logistic回歸模型?

logit變換

我們在建立回歸方程時,因變量的取值范圍為實數集;而在我們所研究的問題中,這些分類型因變量的取值卻是在0~1之間,如患病率為0.1、0.5、0.8等等,因此需要先對因變量的值(目標概率)做logit變換。

設事件發生的概率為$p$,不發生的概率為$1-p$,則將$\frac{p}{1-p}$稱為事件的發生比,記為odds(比數、優勢),logit變換即為:

$$logit(p)=ln(\frac{p}{1-p})$$

顯然,當$p=1$時,$logit(p)$取值為$+\infty$;當$p=0.5$時,$logit(p)=0$;當$p=0$時,$logit(p)$取值為$-\infty$。這樣一來,就把因變量的取值范圍從0~1擴展到了實數集,而采用了這種處理的回歸分析就是logistic回歸。

 

logistic回歸模型

設有一個二分類因變量y,取值為1時表示事件發生,取值為0時表示事件未發生;該因變量有m個影響因素(自變量):$x_1,x_2,...,x_m$;記事件發生的條件概率$P(y=1\mid x_i)=p_i$,則由$p_i$(第i個觀測)所構建的logistic回歸模型為:

$$logit(p_i)=ln(\frac{p_i}{1-p_i})=\beta_0+\beta_1x_1+\cdots +\beta_mx_m=\beta_0+\sum_{j=1}^{m}\beta_jx_j,j=1,2,\cdots,m$$

其中$\beta_j$表示自變量$x_j$改變一個單位時,$logit(p_i)$的改變量,可以理解為各個影響因素的權重系數。

通過變換,logistic回歸模型也可以寫成如下形式:

$$p_i=\frac{e^{\beta_0+\sum_{j=1}^{m}\beta_jx_j}}{1+e^{\beta_0+\sum_{j=1}^{m}\beta_jx_j}}$$

通過觀察logistic回歸模型,我們會發現它與線性回歸模型非常相似。事實上,logistic回歸模型屬於廣義線性模型(generalized linear model)。

 

 

logistic回歸模型的參數估計

logistic回歸模型的假設檢驗

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM