-
要點一: 邏輯回歸模型對樣本的預測取決於權值向量和偏置。
-
概念:
序號 概念 解釋 1 訓練集 包含真實類別標簽的樣本集 2 訓練 根據訓練集尋找最優參數的過程 3 損失函數 是模型參數的函數,用於衡量模型參數的優劣 -
邏輯回歸預測樣本x = (x1 ,x2, x3,……,xn)T 屬於正類的概率 P:
-
其中,w和b是模型的參數,訓練的過程就是尋找這兩個參數。
-
-
混淆矩陣
預測負類 預測正類 真實負類 TN FP 真實正類 FN TP -
正確率
-
正確率的計算公式:
accuracy =
正確率是模型預測正確的樣本數與總樣本數之比。其並不總是可靠的,例如正例:負例=99:1,預測結果為全 正,此時的正確率為99%。
-
-
查准率:
-
又稱准確率(precision),公式如下:
(正類)
(負類)
由公式可知,正確預測正類樣本數量和預測正類樣本總數量之比。負類同。
-
-
查全率:
-
此公式意味着,預測為正類的樣本數與全部正類樣本數之比。又稱真陽率(TPR,true positive rate)與之相對應的有假陽率(FPR,false positive rate):
-
-
ROC曲線
-
在邏輯回歸中,假設我們已經得到了一組w與b,所以我們可以把測試集中的數據代入f(x)進行預測,代入函數后我們得到的是一個介於0和1之間的一個數,為了實現預測,我們需要一個閾值,我們將f(x)大於閾值的測試數據視為正類,否則為負類。
-
所以閾值的選取將直接的影響到我們的邏輯回歸模型的好壞。
-
假陽率FPR與真陽率這對指標隨閾值變化同升同降。高TPR和低FPR是我們希望的。
-
ROC曲線如圖
-
-
以FPR為橫軸、TPR為縱軸,將不同閾值對應的ROC曲線畫出來。ROC曲線上拱越高,說明在較低處的FPR處有更高的TPR。
-
ROC曲線下的面積,AUC(area under curve)可以衡量模型的質量。
-
下一節將發布損失函數的計算方法
后續還有梯度下降法求解邏輯回歸,梯度下降法的改進等內容,屆時為大家奉上手寫邏輯回歸代碼
感謝關注