經典線性模型自變量的線性預測就是因變量的估計值。 廣義線性模型:自變量的線性預測的函數是因變量的估計值。常見的廣義線性模型有:probit模型、poisson模型、對數線性模型等等。對數線性模型里有:logistic regression、Maxinum entropy。本篇是對邏輯回歸的學習總結,以及廣義線性模型導出邏輯回歸的過程。下一篇將是對最大熵模型的學習總結。本篇介紹的大綱如下:
1、邏輯斯蒂分布,logit轉換
2、在二分類問題中,為什么棄用傳統的線性回歸模型,改用邏輯斯蒂回歸?
3、邏輯回歸模型的求解過程?
4、實際應用邏輯回歸時數據預處理的經驗總結。但經驗有限,如果有哪位網友這塊經驗豐富,忘指教,先謝過
5、為什么我們在實際中,經典線性模型的優化目標函數是最小二乘,而邏輯回歸則是似然函數
6、從最根本的廣義線性模型角度,導出經典線性模型以及邏輯回歸
1、邏輯斯蒂分布,logit轉換
一個連續隨機變量X,如果它的分布函數形式如下,則X服從邏輯斯蒂分布,F(x)的值在0~1之間,它的的圖形是一條S型曲線。


2、在二分類問題中,為什么棄用傳統的線性回歸模型,改用邏輯斯蒂回歸?
線性回歸用於二分類時,首先想到下面這種形式,p是屬於類別的概率:

但是這時存在的問題是:
1)等式兩邊的取值范圍不同,右邊是負無窮到正無窮,左邊是[0,1],這個分類模型的存在問題
2)實際中的很多問題,都是當x很小或很大時,對於因變量P的影響很小,當x達到中間某個閾值時,影響很大。即實際中很多問題,概率P與自變量並不是直線關系。
所以,上面這分類模型需要修整,怎么修正呢?統計學家們找到的一種方法是通過logit變換對因變量加以變換,具體如下:


從而,

這里的P完全解決了上面的兩個問題。
3、邏輯回歸模型的求解過程?
1)求解方式
邏輯回歸中,Y服從二項分布,誤差服從二項分布,而非高斯分布,所以不能用最小二乘進行模型參數估計,可以用極大似然估計來進行參數估計。
2)似然函數、目標函數
嚴謹一點的公式如下:

似然函數如下:

對數似然函數,優化目標函數如下:

整個邏輯回歸問題就轉化為求解目標函數,即對數似然函數的極大值的問題,即最優化問題,可采用梯度下降法、擬牛頓法等等。
4、實際應用邏輯回歸時數據預處理的經驗總結,但經驗有限,如果有哪位網友這塊經驗豐富,忘指教,先謝過
1)枚舉型的特征直接進行binary
2)數值型特征,可以:標准化、根據分布進行binary
3)進行pairwise
5、為什么我們在實際中,經典線性模型的優化目標函數是最小二乘,而邏輯回歸則是似然函數
下面公式直接從Ng notes里面復制過來。
1) 經典線性模型的滿足下面等式:

這里有個假設,即最后這個誤差擾動項獨立同分布於均值為0的正態分布,即:

從而:

由於有上面的假設,從而就有下面的似然函數:

從而這線性回歸的問題就可轉化為最大化下面的對數似然估計,由於下面公式前面的項是常數,所以這個問題等價於最小化下面等式中的最后一項,即least mean squares。

2)邏輯斯蒂回歸中,因變量y不再是連續的變量,而是二值的{0,1},中間用到logit變換,將連續性的y值通過此變換映射到比較合理的0~1區間。在廣義線性回歸用於分類問題中,也有一個假設(對應於上面回歸問題中誤差項獨立同分布於正態分布),其中h(x)是logistic function

即,給定x和參數,y服從二項分布,上面回歸問題中,給定x和參數,y服從正態分布。從而。


問題不同(一個是分類、一個是回歸)對應假設也就不同,決定了logistic regression問題最優化目標函數是上面這項,而非回歸問題中的均方誤差LMS。
6、從最根本的廣義線性模型角度,導出經典線性模型以及邏輯回歸
1)指數家族

當固定T時,這個分布屬於指數家族中的哪種分布就由a和b兩個函數決定。下面這種是伯努利分布,對應於邏輯回歸問題
注:從上面可知
,從而
,在后面用GLM導logistic regression的時候會用到這個sigmoid函數。
下面這種是高斯分布,對應於經典線性回歸問題

2)GLM(廣義線性模型)
指數家族的問題可以通過廣義線性模型來解決。如何構建GLM呢?在給定x和參數后,y的條件概率p(y|x,θ) 需要滿足下面三個假設:
assum1) y | x; θ ∼ ExponentialFamily(η).
assum2) h(x) = E[y|x]. 即給定x,目標是預測T(y)的期望,通常問題中T(y)=y
assum3) η = θTx,即η和x之間是線性的
3)經典線性回歸、邏輯回歸
經典線性回歸:預測值y是連續的,假設給定x和參數,y的概率分布服從高斯分布(對應構建GLM的第一條假設)。由上面高斯分布和指數家族分布的對應關系可知,η=µ,根據構建GLM的第2、3條假設可將model表示成:

邏輯回歸:以二分類為例,預測值y是二值的{1,0},假設給定x和參數,y的概率分布服從伯努利分布(對應構建GLM的第一條假設)。由上面高斯分布和指數家族分布的對應關系可知,
,根據構建GLM的第2、3條假設可model表示成:
可以從GLM這種角度理解為什么logistic regression的公式是這個形式~
參考資料:
[1] NG的lecture notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf
[2] 其他網絡資源
