為什么要用logistic回歸？

在醫學領域，我們經常會遇到這樣的數據：患病與未患病、生存與死亡、陰性與陽性……這些結果都是二分類變量。如果要研究自變量與分類型因變量的關系，用多元線性回歸模型是束手無策的，因為多元線性回歸模型研究連續性因變量，並且要求總體（因變量）分布類型為正態分布。因此，當因變量為分類變量時，需要使用logistic回歸模型。

什么是logistic回歸模型？

logit變換

我們在建立回歸方程時，因變量的取值范圍為實數集；而在我們所研究的問題中，這些分類型因變量的取值卻是在0~1之間，如患病率為0.1、0.5、0.8等等，因此需要先對因變量的值（目標概率）做logit變換。

設事件發生的概率為$p$，不發生的概率為$1-p$，則將$\frac{p}{1-p}$稱為事件的發生比，記為odds（比數、優勢），logit變換即為：

$$logit(p)=ln(\frac{p}{1-p})$$

顯然，當$p=1$時，$logit(p)$取值為$+\infty$；當$p=0.5$時，$logit(p)=0$；當$p=0$時，$logit(p)$取值為$-\infty$。這樣一來，就把因變量的取值范圍從0~1擴展到了實數集，而采用了這種處理的回歸分析就是logistic回歸。

logistic回歸模型

設有一個二分類因變量y，取值為1時表示事件發生，取值為0時表示事件未發生；該因變量有m個影響因素（自變量）：$x_1,x_2,...,x_m$；記事件發生的條件概率$P(y=1\mid x_i)=p_i$，則由$p_i$（第i個觀測）所構建的logistic回歸模型為：

$$logit(p_i)=ln(\frac{p_i}{1-p_i})=\beta_0+\beta_1x_1+\cdots +\beta_mx_m=\beta_0+\sum_{j=1}^{m}\beta_jx_j,j=1,2,\cdots,m$$

其中$\beta_j$表示自變量$x_j$改變一個單位時，$logit(p_i)$的改變量，可以理解為各個影響因素的權重系數。

通過變換，logistic回歸模型也可以寫成如下形式：

$$p_i=\frac{e^{\beta_0+\sum_{j=1}^{m}\beta_jx_j}}{1+e^{\beta_0+\sum_{j=1}^{m}\beta_jx_j}}$$

通過觀察logistic回歸模型，我們會發現它與線性回歸模型非常相似。事實上，logistic回歸模型屬於廣義線性模型（generalized linear model）。

logistic回歸模型的參數估計

logistic回歸模型的假設檢驗

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Logistic回歸模型 Logistic回歸模型和Python實現二分類Logistic回歸模型邏輯回歸模型(Logistic Regression, LR)--分類 logistic回歸和廣義線性模型邏輯回歸模型(Logistic Regression, LR)基礎邏輯回歸模型（Logistic Regression）及Python實現邏輯斯特回歸模型(logistic regression) 線性模型-線性回歸、Logistic分類 Softmax回歸——logistic回歸模型在多分類問題上的推廣