混淆矩陣、准確率、召回率、ROC曲線、AUC


混淆矩陣、准確率、召回率、ROC曲線、AUC

假設有一個用來對貓(cats)、狗(dogs)、兔子(rabbits)進行分類的系統,混淆矩陣就是為了進一步分析性能而對該算法測試結果做出的總結。假設總共有 27 只動物:8只貓, 6條狗,13只兔子。結果的混淆矩陣如上圖所示,我們可以發現,只有主對角線上的預測結果是完全正確的。每一列的和為預測為該類的數量,每一行的和為實際該類的數量。在這個混淆矩陣中,實際有8只貓,但是系統將其中3只預測成了狗;對於6條狗,其中有1條被預測成了兔子,2條被預測成了貓。從混淆矩陣中我們可以看出系統對於區分貓和狗存在一些問題,但是區分兔子和其他動物的效果還是不錯的。所有正確的預測結果都在對角線上,所以從混淆矩陣中可以很方便直觀的看出哪里有錯誤,因為他們呈現在對角線外面。下面介紹混淆表格。

在預測分析中,混淆表格(有時候也稱為混淆矩陣),是由false positives,false negatives,true positives和true negatives組成的兩行兩列的表格。它允許我們做出更多的分析,而不僅僅是局限在正確率,對於上面的矩陣,對於貓這一類的分類情況可以表示為下面的表格

根據准確率和召回率的計算公式

\[\begin{split} precision &= \dfrac{TP}{TP + FP}\\ recall &= \dfrac{TP}{TP + FN} \end{split} \]

於是根據precision以及recall的計算公式以及上面的表格,可以得到貓的分類准確率為5/(5 + 2),貓分類的召回率為 5/(5+3)。

這部分內容來自https://blog.csdn.net/qq_28448117/article/details/78219549

  • 真正類率(True Postive Rate)TPR: TP/(TP+FN),代表分類器預測的正類中實際正實例占所有正實例的比例。
  • 負正類率(False Postive Rate)FPR: FP/(FP+TN),代表分類器預測的正類中實際負實例占所有負實例的比例。
  • 真負類率(True Negative Rate)TNR: TN/(FP+TN),代表分類器預測的負類中實際負實例占所有負實例的比例,TNR=1-FPR。

假設采用邏輯回歸分類器,其給出針對每個實例為正類的概率,那么通過設定一個閾值如0.6,概率大於等於0.6的為正類,小於0.6的為負類。對應的就可以算出一組(FPR,TPR),在平面中得到對應坐標點。隨着閾值的逐漸減小,越來越多的實例被划分為正類,但是這些正類中同樣也摻雜着真正的負實例,即TPR和FPR會同時增大。閾值最大時,對應坐標點為(0,0),閾值最小時,對應坐標點(1,1)。

如下面這幅圖,(a)圖中實線為ROC曲線,線上每個點對應一個閾值。

  • 橫軸FPR:1-TNR,1-Specificity,FPR越大,預測正類中實際負類越多。
  • 縱軸TPR:Sensitivity(正類覆蓋率),TPR越大,預測正類中實際正類越多。

理想目標:TPR=1,FPR=0,即圖中(0,1)點,故ROC曲線越靠攏(0,1)點,越偏離45度對角線越好,Sensitivity、Specificity越大效果越好。
AUC(Area under Curve):Roc曲線下的面積,介於0.1和1之間。AUC作為數值可以直觀的評價分類器的好壞,值越大越好。AUC值是一個概率值,當你隨機挑選一個正樣本以及負樣本,當前的分類算法根據計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUC值,AUC值越大,當前分類算法越有可能將正樣本排在負樣本前面,從而能夠更好地分類。

以上內容來自https://blog.csdn.net/u013385925/article/details/80385873


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM