ROC曲線與AUC面積、Gini系數、KS值 之間關系


 

 特別注意區別:

(1)P-R曲線是分別將查准率Precision(精確率)作為縱坐標,查全率Recall(召回率)作為橫坐標作的圖。

(2)ROC曲線、AUC面積、Gini系數、KS值 都是基於真陽率TPR(又叫查全率、召回率、捕獲率、命中率)假陽率FPR(誤診率)兩個重要的指標得來的。其中AUC面積、Gini系數是直接在ROC曲線基礎上進一步得到的。

 

一、ROC曲線

定義:

是指受試者工作特征曲線/接收器操作特性曲線(receiver operating characteristic curve),是反應敏感性和特異性連續變量的綜合指標,利用構圖法揭示敏感性和 特異性的相互關系,它通過將連續變量設定出多個不同的臨界值(閾值),從而計算出一系列敏感性和特異性,再以敏感性(命中率)為縱坐標,特異性(誤診率)為橫坐標繪制成曲線,曲線下的面積(AUC)越大,診斷准確性越高。最靠近坐標圖左上方的點為敏感性和特異性均較高的臨界值。

 

性質:

(1)在同一個ROC曲線中,靠近坐標圖最左上角的點閾值取值為命中率最高,誤診率最低的臨界值。

(2)對於多個ROC曲線來說,和P-R曲線圖形相似,如果一條ROC曲線完全包裹另一條,則外面曲線對應模型更優

(3)當兩條ROC曲線發生交叉,誰的性能更優就難以判定了,此時要根據兩條ROC曲線下的面積大小比較判斷,即AUC面積大者相對更優。

 

下面歸納一下怎么得來的。對於一個二分問題來說,會出現以下四種情況(混淆矩陣):

    預測    
     1  0  合計
實際    1  True Positive(TP)真陽  False Negative(FN)假陰  Actual Positive(TP+FN)
 0  False Positive(FP)假陽  True Negative(TN)真陰  Actual Negative(FP+TN)
   合計  Predicted Positive(TP+FP)  Predicted Negative(FN+TN)  TP+FP+FN+TN

 

 先把基本定義講清楚:

TP(True Positive): 預測為1,真實為1,正例辨出——>真陽性

TN(True Negative):預測為0,真實為0,負例辨出——>真陰性

FN(False Negative): 預測為0,真實為1,正例遺漏——>假陰性

FP(False Positive): 預測為1,真實為0,負例遺漏——>假陽性

 

再看重要指標:

准確率 =(TP+TN) /P+N =被正確分類樣本數/總樣本數

查准率 /響應率 Precision = TP /(TP+FP)

 

查全率 /召回率/捕獲率/命中率 Recall =TP /(TP+FN) ——>真陽率 TPR

誤診率 = FP /(FP+TN)——>假陽率 FPR

 

 

 以上值得注意的是:所有預測為1陽性的樣本 =召回+誤診

 

 

那么,以命中率(TPR)作為縱坐標,誤診率(FPR)作為橫坐標,得到ROC曲線:

            

 

 

二、AUC面積(最重要)

 AUC被定義為ROC曲線下與坐標軸圍成的面積。

由於ROC曲線的定義,AUC的值不會大於1。

同時,ROC曲線一般在y=x曲線上方,所以AUC的取值范圍一般在(0.5~1)。

意義:一般AUC越接近於1,表示模型整體效果越好。

 

 

三、KS值

 KS(Kolmogorov-Smirnov)值定義為TPR與FPR的差的最大值。

KS值 =max(TPR−FPR)

應用:

一般,希望模型有較大的KS值,意味着模型有較強的區分能力。但是也不是越大越好,如果KS值超過0.75,往往表示模型有異常。

KS值對應的模型預測概率即最優閾值,選擇此預測概率值作為0、1分類的分界線,可使模型取得最優分類效果。

 

意義:

(1)KS值<0.2 ,一般認為模型區分能力較弱;

(2)KS值在[0.2 ,0.3]之間模型有一定區分能力;商業實踐中能在這個區間就挺不錯了。

(3)KS值在[0.3 ,0.5]之間,模型具有較強的區分能力。

 

 

 

 

四、Gini系數

Gini系數指ROC曲線與y=x(紅線)圍成的面積和中線之上的面積的(0.5)比例。AUC和Gini系數的換算關系為:

Gini系數 =2*AUC -1

 

 

【參考】

【1】如何向門外漢講解ks值(風控模型術語)?

【2】ROC曲線、AUC、Gini系數和KS值

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM