特別注意區別:
(1)P-R曲線是分別將查准率Precision(精確率)作為縱坐標,查全率Recall(召回率)作為橫坐標作的圖。
(2)ROC曲線、AUC面積、Gini系數、KS值 都是基於真陽率TPR(又叫查全率、召回率、捕獲率、命中率)和假陽率FPR(誤診率)兩個重要的指標得來的。其中AUC面積、Gini系數是直接在ROC曲線基礎上進一步得到的。
一、ROC曲線
定義:
是指受試者工作特征曲線/接收器操作特性曲線(receiver operating characteristic curve),是反應敏感性和特異性連續變量的綜合指標,利用構圖法揭示敏感性和 特異性的相互關系,它通過將連續變量設定出多個不同的臨界值(閾值),從而計算出一系列敏感性和特異性,再以敏感性(命中率)為縱坐標,特異性(誤診率)為橫坐標繪制成曲線,曲線下的面積(AUC)越大,診斷准確性越高。最靠近坐標圖左上方的點為敏感性和特異性均較高的臨界值。
性質:
(1)在同一個ROC曲線中,靠近坐標圖最左上角的點閾值取值為命中率最高,誤診率最低的臨界值。
(2)對於多個ROC曲線來說,和P-R曲線圖形相似,如果一條ROC曲線完全包裹另一條,則外面曲線對應模型更優。
(3)當兩條ROC曲線發生交叉,誰的性能更優就難以判定了,此時要根據兩條ROC曲線下的面積大小比較判斷,即AUC面積大者相對更優。
下面歸納一下怎么得來的。對於一個二分問題來說,會出現以下四種情況(混淆矩陣):
預測 | ||||
1 | 0 | 合計 | ||
實際 | 1 | True Positive(TP)真陽 | False Negative(FN)假陰 | Actual Positive(TP+FN) |
0 | False Positive(FP)假陽 | True Negative(TN)真陰 | Actual Negative(FP+TN) | |
合計 | Predicted Positive(TP+FP) | Predicted Negative(FN+TN) | TP+FP+FN+TN |
先把基本定義講清楚:
TP(True Positive): 預測為1,真實為1,正例辨出——>真陽性
TN(True Negative):預測為0,真實為0,負例辨出——>真陰性
FN(False Negative): 預測為0,真實為1,正例遺漏——>假陰性
FP(False Positive): 預測為1,真實為0,負例遺漏——>假陽性
再看重要指標:
准確率 =(TP+TN) /P+N =被正確分類樣本數/總樣本數
查准率 /響應率 Precision = TP /(TP+FP)
查全率 /召回率/捕獲率/命中率 Recall =TP /(TP+FN) ——>真陽率 TPR
誤診率 = FP /(FP+TN)——>假陽率 FPR
以上值得注意的是:所有預測為1陽性的樣本 =召回+誤診
那么,以命中率(TPR)作為縱坐標,誤診率(FPR)作為橫坐標,得到ROC曲線:
二、AUC面積(最重要)
AUC被定義為ROC曲線下與坐標軸圍成的面積。
由於ROC曲線的定義,AUC的值不會大於1。
同時,ROC曲線一般在y=x曲線上方,所以AUC的取值范圍一般在(0.5~1)。
意義:一般AUC越接近於1,表示模型整體效果越好。
三、KS值
KS(Kolmogorov-Smirnov)值定義為TPR與FPR的差的最大值。
KS值 =max(TPR−FPR)
應用:
一般,希望模型有較大的KS值,意味着模型有較強的區分能力。但是也不是越大越好,如果KS值超過0.75,往往表示模型有異常。
KS值對應的模型預測概率即最優閾值,選擇此預測概率值作為0、1分類的分界線,可使模型取得最優分類效果。
意義:
(1)KS值<0.2 ,一般認為模型區分能力較弱;
(2)KS值在[0.2 ,0.3]之間模型有一定區分能力;商業實踐中能在這個區間就挺不錯了。
(3)KS值在[0.3 ,0.5]之間,模型具有較強的區分能力。
四、Gini系數
Gini系數指ROC曲線與y=x(紅線)圍成的面積和中線之上的面積的(0.5)比例。AUC和Gini系數的換算關系為:
Gini系數 =2*AUC -1
【參考】