本節開始線性分類器的另一種模型:模型斯特回歸(logistic regression)。
在之前介紹的線性分類器中,h(x)=ΘTx+Θ0,如果h(x)>0,則樣本x屬於正類,否定x屬於負類。直觀上的認識,如何h(x)越大,我們更加確信樣本屬於正類,相應的,h(x)越小,我們更加確信樣本屬於負類,而h(x)在0之間徘徊,很難確信屬於某一類。為了與概率統計知識想結合,可以將h(x)這種“值"上的特性映射到[0,1]之間,logistic 函數(又成sigmoid)函數,就是一個非常優越的選擇,logistic 函數定義如下:

函數圖象如下:

於是,我們的模型假設為:
![]()
p(ci|x)=hΘ(x) ,模型一旦確定后,我們需要樣本去學習模型參數(最大似然估計,最大后驗概率估計)。
對於給定樣本xi,樣本標簽yi服從Bernoulli分布:

注意這里與生成式模型的區別,生成式模型我們是對p(x|ci)建模,而在判別式模型我們直接對yi|x建模,樣本的似然函數:
![]()
對數似然函數:
![]()
此外,如果將對數似然函數取相反數:

上面的公式樣本的互信息定義(Cross Entropy),我們的算法實際上就是求樣本集的互信息最小(模型與之樣本不確定性最小)
采用隨機梯度下降算法即可獲得模型參數:
我們得到一個漂亮而又似曾相識的解(與最小二乘回歸解的形式),然而這里不同的是hΘ(x)是一個sigmoid函數(非線性的)。
多分類的情況下,logitsitc regression模型每一類均訓練出一個預測函數,然后選擇后驗概率最大的一類。多類logistic regression模型的假設為:

上式被成為軟最大(softmax)。每個樣本點對應一次多項式取值,即有:
![]()
則樣本集的似然函數可以寫成:


采用隨機梯度下降算法,第j類的更新算法如下:

邏輯斯特回歸模型的一個強大的地方是,對樣本類別的標簽給出了自然的置信度(后驗概率),其他的判別式線性分類器模型如SVM沒有提供,如果想要得到樣本后驗概率,需要經過特殊的學習算法計算(libsvm支持SVM后驗概率形式輸出)。
