模型評價與損失函數


 模型評價

第二章:模型評價與損失函數

  • 要點一: 邏輯回歸模型對樣本的預測取決於權值向量偏置

  • 概念:

    序號 概念 解釋
    1 訓練集 包含真實類別標簽的樣本集
    2 訓練 根據訓練集尋找最優參數的過程
    3 損失函數 是模型參數的函數,用於衡量模型參數的優劣

     

  • 邏輯回歸預測樣本x = (x1 ,x2, x3,……,xn)T 屬於正類的概率 P

    f(x) =

    • 其中,w和b是模型的參數,訓練的過程就是尋找這兩個參數。

 

  • 混淆矩陣

      預測負類 預測正類
    真實負類 TN FP
    真實正類 FN TP

     

  • 正確率

    • 正確率的計算公式:

      accuracy =

      正確率是模型預測正確的樣本數與總樣本數之比。其並不總是可靠的,例如正例:負例=99:1,預測結果為全 正,此時的正確率為99%。

  • 查准率:

    • 又稱准確率(precision),公式如下:

      (正類)

      (負類)

      由公式可知,正確預測正類樣本數量和預測正類樣本總數量之比。負類同。

  • 查全率:

    • 查全率又稱召回率:recall

      此公式意味着,預測為正類的樣本數與全部正類樣本數之比。又稱真陽率TPR,true positive rate)與之相對應的有假陽率FPR,false positive rate):

  • ROC曲線

    • 在邏輯回歸中,假設我們已經得到了一組w與b,所以我們可以把測試集中的數據代入f(x)進行預測,代入函數后我們得到的是一個介於0和1之間的一個數,為了實現預測,我們需要一個閾值,我們將f(x)大於閾值的測試數據視為正類,否則為負類。

    • 所以閾值的選取將直接的影響到我們的邏輯回歸模型的好壞。

    • 假陽率FPR與真陽率這對指標隨閾值變化同升同降。高TPR和低FPR是我們希望的。

    • ROC曲線如圖

    • img

    • 以FPR為橫軸、TPR為縱軸,將不同閾值對應的ROC曲線畫出來。ROC曲線上拱越高,說明在較低處的FPR處有更高的TPR。

    • ROC曲線下的面積,AUC(area under curve)可以衡量模型的質量。

 

 

下一節將發布損失函數的計算方法

后續還有梯度下降法求解邏輯回歸,梯度下降法的改進等內容,屆時為大家奉上手寫邏輯回歸代碼

感謝關注

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM