1.什么是邏輯回歸
在前面講述的回歸模型中,處理的因變量都是數值型區間變量,建立的模型描述是因變量的期望與自變量之間的線性關系。比如常見的線性回歸模型:

而在采用回歸模型分析實際問題中,所研究的變量往往不全是區間變量而是順序變量或屬性變量,比如二項分布問題。通過分析年齡、性別、體質指數、平均血壓、疾病指數等指標,判斷一個人是否換糖尿病,Y=0表示未患病,Y=1表示患病,這里的響應變量是一個兩點(0-1)分布變量,它就不能用h函數連續的值來預測因變量Y(只能取0或1)。
總之,線性回歸模型通常是處理因變量是連續變量的問題,如果因變量是定性變量,線性回歸模型就不再適用了,需采用邏輯回歸模型解決。
邏輯回歸(Logistic Regression)是用於處理因變量為分類變量的回歸問題,常見的是二分類或二項分布問題,也可以處理多分類問題,它實際上是屬於一種分類方法
2.邏輯回歸的推導
1.Sigmoid 函數:(z值就是預測值)
Logistic Regression雖然名字里帶“回歸”,但是它實際上是一種分類方法,用於兩分類問題(即輸出只有兩種)。根據第二章中的步驟,需要先找到一個預測函數(h),顯然,該函數的輸出必須是兩個值(分別代表兩個類別)
所以利用了Logistic函數(或稱為Sigmoid函數),函數形式為:
二分類問題的概率與自變量之間的關系圖形往往是一個S型曲線,如圖所示,采用的Sigmoid函數實現:
2.推導
3.得到似然函數,和對數似:
4.求導計算
5.求解(通過參數的變化得到最優解):
3.自我總結:
邏輯回歸就是一個分類的算法,常見用在二分類當中,就是把我們的輸入值在線性回歸中轉化為預測值,然后映射到Sigmoid 函數中,講值作為x軸的變量,y軸作為一個概率,預測值對應的Y值越接近於1說明完全符合預測結果。但是擬合的越好,不代表效果就越好,有可能擬合過度。
注:擬合的越好的意思是,測試集的測試效果符合訓練集的訓練效果。在我看來訓練集就是真實值的集合,測試集就是預測值的集合。