混淆矩陣,准確率,召回率,F-score,PR曲線,ROC曲線,AUC


本文的部分內容摘自韓家煒《數據挖掘》

----------------------------------------------------------------------------------

四個術語

混淆矩陣(Confusion Matrix)

評估度量

 還有一個術語:負正類率(false positive rate, FPR),也叫做打擾率計算公式為:FPR=FP/(FP+TN)=FP/N。負正類率計算的是分類器錯認為正類的負實例占所有負實例的比例

召回率(recall)的理解和記憶方法:假設豐田公司有一批汽車投放到了美國市場,后來發現其中有一部分有問題,現在要召回,召回率=召回的汽車中有問題的汽車數量 / 投放到美國市場的這批汽車中有問題的汽車總數,也就是說召回率的關注焦點在有問題的汽車數量,用召回來了的有問題的汽車數目除以總的有問題的汽車數目。

分類准確率(Accuracy),不管是哪個類別,只要預測正確,其數量都放在分子上,而分母是全部數據數量,這說明正確率是對全部數據的判斷。

分類精度(precision)在分類中對應的是某個類別,分子是預測該類別正確的數量,分母是預測為該類別的全部數據的數量。或者說,Accuracy是對分類器整體上的正確率的評價,而Precision是分類器預測為某一個類別的正確率的評價。

ROC和AUC

ROC是受試者工作特征曲線 receiver operating characteristic curve ) 的簡寫,又稱為感受性曲線(sensitivity curve)。得此名的原因在於曲線上各點反映着相同的感受性,它們都是對同一信號刺激的反應,只不過是在幾種不同的判定標准下所得的結果而已。ROC是反映召回率和打擾率連續變量的綜合指標,是用構圖法揭示召回率和打擾率的相互關系,它通過將連續變量設定出多個不同的臨界值,從而計算出一系列召回率和打擾率,再以召回率為縱坐標、打擾率為橫坐標繪制成曲線。

AUC是ROC曲線下面積(Area Under roc Curve)的簡稱,顧名思義,AUC的值就是處於ROC curve下方的那部分面積的大小。通常,AUC的值介於0到1.0之間,隨機猜測的AUC值為0.5(例子可參考這篇博客)。

 分類模型輸出的是某個類別的概率值。設定一個閾值,當概率值大於該閾值時,認為樣本屬於該類,當概率值小於該閾值時,認為樣本不屬於該類,然后可以算出該閾值下的(召回率,打擾率)。設定不同的閾值,可以得到不同的(召回率,打擾率)。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM