邏輯回歸算法是分類算法,它適合於標簽 y 取值離散的情況
假說表示
在分類的問題中,我們需要什么樣的函數來表示我們的假設,例如我們在做分類的時候,希望我們的分類器的輸出值在0~1之間,因此,我們希望滿足某個性質的假設函數,這個性質是該函數的預測值在 0~1之間。
例如上圖給出的乳腺癌分類問題,我們希望可以用線性回歸的方法求出適合數據的一條直線,但由於線性回歸模型只能預測連續的值,但是對於二分類問題,我們只需要輸出 0 或 1 ,所以我們可以定義:
對於上圖所示的數據,線性回歸似乎能很好的完成分類問題。但是,假設我么你現在又觀測到一個非常大尺寸的惡性腫瘤,將其作為一條直線加入到我們的訓練集中來,則我們會得到一條新的直線,這時候在使用 0.5 作為閾值似乎並不合理,並且線性回歸模型的值可以超過 [ 0,1 ] 的范圍,所以線性回歸模型並不符合。
因此,我們引入一個新的模型。邏輯回歸模型,該模型的輸出范圍始終在 0~1 之間。邏輯回歸模型的假設為:
其中 X 代表特征向量 ,g 代表邏輯函數,其公式為:
該函數的圖像為:
對於邏輯回歸模型 hΘ(x) 的理解為,給定輸入的變量,根據選擇的參數計算輸出變量等於 “ 1 ” 的可能,即:
例如:,則說明有 70% 的可能 y 為正類。
決策邊界
在邏輯回歸預測中:
並且根據圖像我們可以看出:
現在我們有一個模型:
並且參數Θ為 [ -3,1,1 ] 時 ,則當: -3 + x1+x2 >= 0 時,模型將預測 y=1,所以,我們可以繪制 x1+x2 = 3 這條直線作為我們的分界線
但是當數據是這個樣子的時候,怎樣選擇模型?
則我們需要曲線方程來進行區分,例如:
即我們可以用非常復雜的模型來適應形狀非常復雜的判定邊界。