邏輯回歸問題(Logistic Regression)


  邏輯回歸算法是分類算法,它適合於標簽 y 取值離散的情況

假說表示

  在分類的問題中,我們需要什么樣的函數來表示我們的假設,例如我們在做分類的時候,希望我們的分類器的輸出值在0~1之間,因此,我們希望滿足某個性質的假設函數,這個性質是該函數的預測值在 0~1之間。

  

   例如上圖給出的乳腺癌分類問題,我們希望可以用線性回歸的方法求出適合數據的一條直線,但由於線性回歸模型只能預測連續的值,但是對於二分類問題,我們只需要輸出 0 或 1 ,所以我們可以定義:

  

 

 

   對於上圖所示的數據,線性回歸似乎能很好的完成分類問題。但是,假設我么你現在又觀測到一個非常大尺寸的惡性腫瘤,將其作為一條直線加入到我們的訓練集中來,則我們會得到一條新的直線,這時候在使用 0.5 作為閾值似乎並不合理,並且線性回歸模型的值可以超過 [ 0,1 ] 的范圍,所以線性回歸模型並不符合。

 

  因此,我們引入一個新的模型。邏輯回歸模型,該模型的輸出范圍始終在 0~1 之間。邏輯回歸模型的假設為:

 

 

 

  其中 X 代表特征向量 ,g 代表邏輯函數,其公式為:

 

 

  該函數的圖像為:

 

 

   對於邏輯回歸模型 hΘ(x) 的理解為,給定輸入的變量,根據選擇的參數計算輸出變量等於 “ 1 ” 的可能,即:

 

  例如:,則說明有 70% 的可能 y 為正類。

決策邊界

 

   

 

   在邏輯回歸預測中:

 

  並且根據圖像我們可以看出:

 

   現在我們有一個模型:

 

   並且參數Θ為 [ -3,1,1 ] 時 ,則當: -3 + x1+x2 >= 0 時,模型將預測 y=1,所以,我們可以繪制  x1+x2 = 3 這條直線作為我們的分界線

  

 

  但是當數據是這個樣子的時候,怎樣選擇模型?

  

 

   則我們需要曲線方程來進行區分,例如:

  

 

  即我們可以用非常復雜的模型來適應形狀非常復雜的判定邊界。

 

 

 

 

   

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM