先理解一下正類(Positive)和負類(Negetive),比如現在要預測用戶是否點擊了某個廣告鏈接,點擊了才是我們要的結果,這時,點擊了則表示為正類,沒點擊則表示為負類。
TP(True Positive):被預測成了正類的正類,即正確預測的正類
FP(False Positive):被預測成了正類的負類
TN(True Negetive):被預測成了負類的負類,即正確預測的負類
FN(False Negetive):被預測成了負類的正類
一、准確率(Accuracy)
准確率跟正類負類沒多大關系,表示在預測結果中,正確預測的數量 / 樣本總數。
二、精確率(Precision)
在預測結果中,正確預測的正類數 / 預測為正類的數量 : TP / (TP+FP)
三、召回率(Recall)
在預測結果中,正確預測的正類數 / 原本即為正類的數量 : TP / (TP+FN)
四、F-Measure
用precision和recall兩個指標不直觀,索性把他們合並為一個變量——F-measure:Recall * Precision * 2 / (Recall + Precision)(越大越好,1為理想狀態,此時precision為1,recall為1)
五、ROC
ROC曲線是以 FP Rate 為橫軸,TP Rate 為縱軸的曲線。如下圖所示
圖片來源:https://www.cnblogs.com/haoguoeveryone/p/haoguo_5.html
六、AUC
AUC 即 ROC 曲線對應的面積,面積越大越好。
七、疑問
ROC曲線理想情況下,應該是TP Rate越接近1,FP Rate越接近0更好才對。但對應於AUC,應該是曲線越靠近左上方AUC越大,曲線越靠近右下方AUC越小。這樣就顯得有點矛盾了,有點搞不清楚,是不是曲線呈現下降趨勢才是正確的?希望有大神看到了幫我一下,謝謝!感激不盡!