本文的部分內容摘自韓家煒《數據挖掘》
----------------------------------------------------------------------------------
四個術語
混淆矩陣(Confusion Matrix)
評估度量
還有一個術語:負正類率(false positive rate, FPR),也叫做打擾率計算公式為:FPR=FP/(FP+TN)=FP/N。負正類率計算的是分類器錯認為正類的負實例占所有負實例的比例
召回率(recall)的理解和記憶方法:假設豐田公司有一批汽車投放到了美國市場,后來發現其中有一部分有問題,現在要召回,召回率=召回的汽車中有問題的汽車數量 / 投放到美國市場的這批汽車中有問題的汽車總數,也就是說召回率的關注焦點在有問題的汽車數量,用召回來了的有問題的汽車數目除以總的有問題的汽車數目。
分類准確率(Accuracy),不管是哪個類別,只要預測正確,其數量都放在分子上,而分母是全部數據數量,這說明正確率是對全部數據的判斷。
分類精度(precision)在分類中對應的是某個類別,分子是預測該類別正確的數量,分母是預測為該類別的全部數據的數量。或者說,Accuracy是對分類器整體上的正確率的評價,而Precision是分類器預測為某一個類別的正確率的評價。
ROC和AUC
ROC是受試者工作特征曲線 receiver operating characteristic curve ) 的簡寫,又稱為感受性曲線(sensitivity curve)。得此名的原因在於曲線上各點反映着相同的感受性,它們都是對同一信號刺激的反應,只不過是在幾種不同的判定標准下所得的結果而已。ROC是反映召回率和打擾率連續變量的綜合指標,是用構圖法揭示召回率和打擾率的相互關系,它通過將連續變量設定出多個不同的臨界值,從而計算出一系列召回率和打擾率,再以召回率為縱坐標、打擾率為橫坐標繪制成曲線。
AUC是ROC曲線下面積(Area Under roc Curve)的簡稱,顧名思義,AUC的值就是處於ROC curve下方的那部分面積的大小。通常,AUC的值介於0到1.0之間,隨機猜測的AUC值為0.5(例子可參考這篇博客)。
分類模型輸出的是某個類別的概率值。設定一個閾值,當概率值大於該閾值時,認為樣本屬於該類,當概率值小於該閾值時,認為樣本不屬於該類,然后可以算出該閾值下的(召回率,打擾率)。設定不同的閾值,可以得到不同的(召回率,打擾率)。