分類算法中常用的評價指標


本文來自網絡,屬於對各評價指標的總結,如果看完之后,還不是很理解,可以針對每個評價指標再單獨搜索一些學習資料。加油~!

對於分類算法,常用的評價指標有:

(1)Precision

(2)Recall

(3)F-score

(4)Accuracy

(5)ROC

(6)AUC

ps:不建議翻譯成中文,尤其是Precision和Accuracy,容易引起歧義。

1.混淆矩陣

混淆矩陣是監督學習中的一種可視化工具,主要用於比較分類結果和實例的真實信息。矩陣中的每一行代表實例的預測類別,每一列代表實例的真實類別。

圖1 混淆矩陣

如圖1所示,在混淆矩陣中,包含以下四種數據:

a、真正(True Positive , TP):被模型預測為正的正樣本

b、假正(False Positive , FP):被模型預測為正的負樣本

c、假負(False Negative , FN):被模型預測為負的正樣本

d、真負(True Negative , TN):被模型預測為負的負樣本

根據這四種數據,有四個比較重要的比率,其中TPR和TNR更為常用:

  • 真正率(True Positive Rate , TPR)【靈敏度(sensitivity)】:TPR = TP /(TP + FN) ,即正樣本預測結果數/ 正樣本實際數
  • 假負率(False Negative Rate ,  FNR) :FNR = FN /(TP + FN) ,即被預測為負的正樣本結果數/正樣本實際數
  • 假正率(False Positive Rate ,  FPR)  :FPR = FP /(FP + TN) ,即被預測為正的負樣本結果數 /負樣本實際數
  • 真負率(True Negative Rate , TNR)【特指度(specificity)】:TNR = TN /(TN + FP) ,即負樣本預測結果數 / 負樣本實際數 

2.評價指標

1)(Precision)P = TP/(TP+FP)

2)(Recall)R = TP/(TP+FN),即真正率

3)F-score:Precision和Recall的調和平均值, 更接近於P, R兩個數較小的那個: F=2* P* R/(P + R)

4)(Aaccuracy): 分類器對整個樣本的判定能力,即將正的判定為正,負的判定為負: A = (TP + TN)/(TP + FN + FP + TN)  

5)ROC(Receiver Operating Characteristic):ROC的主要分析工具是一個畫在ROC空間的曲線——ROC curve,橫坐標為false positive rate(FPR),縱坐標為true positive rate(TPR)。

如何畫ROC曲線?

對於二值分類問題,實例的值往往是連續值,通過設定一個閾值,將實例分類到正類或者負類(比如大於閾值划分為正類)。因此,可以變化閾值,根據不同的閾值進行分類,根據分類結果計算得到ROC空間中相應的點,連接這些點就形成ROC curve。ROC curve經過(0,0) (1,1),實際上(0,0)和(1,1)連線形成的ROC curve實際上代表的是一個隨機分類器。一般情況下,這個曲線都應該處於(0,0)和(1,1)連線的上方,如圖2所示。

圖2 ROC曲線

ROC上幾個關鍵點的解釋:

(TPR=0,FPR=0):把每個實例都預測為負類的模型

(TPR=1,FPR=1):把每個實例都預測為正類的模型

(TPR=1,FPR=0):理想模型,全部預測正確

(TPR=0,FPR=1):最差模型,全部預測錯誤

 一個好的分類模型應該盡可能靠近圖形的左上角,而一個隨機猜測模型應位於連接點(TPR=0,FPR=0)和(TPR=1,FPR=1)的主對角線上。

既然已經這么多評價標准,為什么還要使用ROC和AUC呢?

因為ROC曲線有個很好的特性:當測試集的正負樣本的分布變化的時候,ROC曲線能夠保持不變。在實際的數據集中經常會出現類不平衡(class imbalance)現象,即負樣本比正樣本多很多(或者相反),而且測試數據中的正負樣本的分布也可能隨着時間變化。 

6)AUC(Area Under ROC Curve)

AUC的值就是處於ROC curve下方的那部分面積的大小。通常,AUC的值介於0.5到1.0之間,較大的AUC代表了較好的performance。如果模型是完美的,那么它的AUG = 1,如果模型是個簡單的隨機猜測模型,那么它的AUG = 0.5,如果一個模型好於另一個,則它的曲線下方面積相對較大。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM