為什么要用logistic回歸?
在醫學領域,我們經常會遇到這樣的數據:患病與未患病、生存與死亡、陰性與陽性……這些結果都是二分類變量。如果要研究自變量與分類型因變量的關系,用多元線性回歸模型是束手無策的,因為多元線性回歸模型研究連續性因變量,並且要求總體(因變量)分布類型為正態分布。因此,當因變量為分類變量時,需要使用logistic回歸模型。
什么是logistic回歸模型?
logit變換
我們在建立回歸方程時,因變量的取值范圍為實數集;而在我們所研究的問題中,這些分類型因變量的取值卻是在0~1之間,如患病率為0.1、0.5、0.8等等,因此需要先對因變量的值(目標概率)做logit變換。
設事件發生的概率為$p$,不發生的概率為$1-p$,則將$\frac{p}{1-p}$稱為事件的發生比,記為odds(比數、優勢),logit變換即為:
$$logit(p)=ln(\frac{p}{1-p})$$
顯然,當$p=1$時,$logit(p)$取值為$+\infty$;當$p=0.5$時,$logit(p)=0$;當$p=0$時,$logit(p)$取值為$-\infty$。這樣一來,就把因變量的取值范圍從0~1擴展到了實數集,而采用了這種處理的回歸分析就是logistic回歸。
logistic回歸模型
設有一個二分類因變量y,取值為1時表示事件發生,取值為0時表示事件未發生;該因變量有m個影響因素(自變量):$x_1,x_2,...,x_m$;記事件發生的條件概率$P(y=1\mid x_i)=p_i$,則由$p_i$(第i個觀測)所構建的logistic回歸模型為:
$$logit(p_i)=ln(\frac{p_i}{1-p_i})=\beta_0+\beta_1x_1+\cdots +\beta_mx_m=\beta_0+\sum_{j=1}^{m}\beta_jx_j,j=1,2,\cdots,m$$
其中$\beta_j$表示自變量$x_j$改變一個單位時,$logit(p_i)$的改變量,可以理解為各個影響因素的權重系數。
通過變換,logistic回歸模型也可以寫成如下形式:
$$p_i=\frac{e^{\beta_0+\sum_{j=1}^{m}\beta_jx_j}}{1+e^{\beta_0+\sum_{j=1}^{m}\beta_jx_j}}$$
通過觀察logistic回歸模型,我們會發現它與線性回歸模型非常相似。事實上,logistic回歸模型屬於廣義線性模型(generalized linear model)。
logistic回歸模型的參數估計
logistic回歸模型的假設檢驗