邏輯回歸(分類算法)


1.什么是邏輯回歸

在前面講述的回歸模型中,處理的因變量都是數值型區間變量,建立的模型描述是因變量的期望與自變量之間的線性關系。比如常見的線性回歸模型: 

                

而在采用回歸模型分析實際問題中,所研究的變量往往不全是區間變量而是順序變量或屬性變量,比如二項分布問題。通過分析年齡、性別、體質指數、平均血壓、疾病指數等指標,判斷一個人是否換糖尿病,Y=0表示未患病,Y=1表示患病,這里的響應變量是一個兩點(0-1)分布變量,它就不能用h函數連續的值來預測因變量Y(只能取0或1)。
總之,線性回歸模型通常是處理因變量是連續變量的問題,如果因變量是定性變量,線性回歸模型就不再適用了,需采用邏輯回歸模型解決。

邏輯回歸(Logistic Regression)是用於處理因變量為分類變量的回歸問題,常見的是二分類或二項分布問題,也可以處理多分類問題,它實際上是屬於一種分類方法

2.邏輯回歸的推導

  1.Sigmoid 函數:(z值就是預測值)

    Logistic Regression雖然名字里帶“回歸”,但是它實際上是一種分類方法,用於兩分類問題(即輸出只有兩種)。根據第二章中的步驟,需要先找到一個預測函數(h),顯然,該函數的輸出必須是兩個值(分別代表兩個類別)

    所以利用了Logistic函數(或稱為Sigmoid函數),函數形式為:

            

   二分類問題的概率與自變量之間的關系圖形往往是一個S型曲線,如圖所示,采用的Sigmoid函數實現:

        

  

  2.推導

    

  3.得到似然函數,和對數似:

  

  4.求導計算

  

  5.求解(通過參數的變化得到最優解):

  

3.自我總結:

      邏輯回歸就是一個分類的算法,常見用在二分類當中,就是把我們的輸入值在線性回歸中轉化為預測值,然后映射到Sigmoid 函數中,講值作為x軸的變量,y軸作為一個概率,預測值對應的Y值越接近於1說明完全符合預測結果。但是擬合的越好,不代表效果就越好,有可能擬合過度。

      注:擬合的越好的意思是,測試集的測試效果符合訓練集的訓練效果。在我看來訓練集就是真實值的集合,測試集就是預測值的集合。

 

 

 

 

 

 

 

 

  

 

 

 

 

 

        

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM