1.KS值--學習器將正例和反例分開的能力,確定最好的“截斷點”
KS曲線和ROC曲線都用到了TPR,FPR。KS曲線是把TPR和FPR都作為縱坐標,而樣本數作為橫坐標。但是AUC只評價了模型的整體訓練效果,並沒有指出如何划分類別讓預估的效果達到最好。
不同之處在於,ks取的是TPR和FPR差值的最大值。
偽陽性率(FPR) :判定為正例卻不是真正例的比率
真陽性率(TPR) :判定為正例也是真正例的比率
偽陰性率(FNR) :判定為負例卻不是真負例的比率
真陰性率(TNR) :判定為負例也是真負例的比率
2.畫圖注意
令橫軸為閾值,縱軸為TPR和TPR,值域均為[0, 1]。可以這樣直觀理解,隨着橫坐標從0到1變化,TPR越快提升,模型效果越好;反之,FPR越快提升,模型效果就越差。 ks值,正是圖中的最大差值,此時的橫軸取值,便是最佳閾值。
3.作圖步驟
1. 根據學習器的預測結果(注意,是正例的概率值,非0/1變量)對樣本進行排序(從大到小)-----這就是截斷點依次選取的順序
2. 按順序選取截斷點,並計算TPR和FPR ---也可以只選取n個截斷點,分別在1/n,2/n,3/n等位置
3. 橫軸為樣本的占比百分比(最大100%),縱軸分別為TPR和FPR,可以得到KS曲線
4. TPR和FPR曲線分隔最開的位置就是最好的”截斷點“,最大間隔距離就是KS值,通常>0.2即可認為模型有比較好偶的預測准確性