AUC(Area Under Curve)被定義為ROC曲線下與坐標軸圍成的面積,顯然這個面積的數值不會大於1。又由於ROC曲線一般都處於y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。AUC越接近1.0,檢測方法真實性越高;等於0.5時,則真實性最低,無應用價值。
AUC(Area Under Curve)被定義為ROC曲線下的
面積。我們往往使用AUC值作為模型的評價標准是因為很多時候
ROC曲線並不能清晰的說明哪個分類器的效果更好,而作為一個數值,對應AUC更大的分類器效果更好。
其中,
ROC曲線全稱為
受試者工作特征曲線 (receiver operating characteristic curve),它是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(敏感性)為縱坐標,假陽性率(1-特異性)為橫坐標繪制的
曲線。
ROC(receiver operating characteristic curve)接收者操作特征曲線,是由二戰中的電子工程師和雷達工程師發明用來偵測戰場上敵軍載具(飛機、船艦)的指標,屬於信號檢測理論。
ROC曲線的橫坐標是偽陽性率(也叫假正類率,False Positive Rate),縱坐標是真陽性率(真正類率,True Positive Rate),相應的還有真陰性率(真負類率,True Negative Rate)和偽陰性率(假負類率,False Negative Rate)。這四類指標的計算方法如下:
(1)偽陽性率(
FPR):判定為正例卻不是真正例的概率,即真負例中判為正例的概率
(2)真陽性率(
TPR):判定為正例也是真正例的概率,即真正例中判為正例的概率(也即正例召回率)
(3)偽陰性率(
FNR):判定為負例卻不是真負例的概率,即真正例中判為負例的概率。
(4)真陰性率(
TNR):判定為負例也是真負例的概率,即真負例中判為負例的概率。
ROC(Receiver Operating Characteristic)曲線,又稱
接受者操作特征曲線。該曲線最早應用於雷達信號檢測領域,用於區分信號與噪聲。后來人們將其用於評價模型的預測能力,ROC曲線是基於
混淆矩陣得出的。一個二分類模型的閾值可能設定為高或低,每種閾值的設定會得出不同的 FPR 和 TPR ,將同一模型每個閾值的 (FPR, TPR) 坐標都畫在 ROC 空間里,就成為特定模型的ROC曲線。ROC曲線橫坐標為假正率(FPR),縱坐標為真正率(TPR)。
AUC就是曲線下面積,在比較不同的分類模型時,可以將每個模型的ROC曲線都畫出來,比較曲線下面積做為模型優劣的指標。ROC 曲線下方的面積(Area under the Curve),其意義是:
(1)因為是在1x1的方格里求面積,AUC必在0~1之間。
(2)假設閾值以上是陽性,以下是陰性;
(3)若隨機抽取一個陽性樣本和一個陰性樣本,分類器正確判斷陽性樣本的值高於陰性樣本的概率 = AUC 。
(4)簡單說:AUC值越大的分類器,正確率越高。
從AUC 判斷分類器(預測模型)優劣的標准:
-
AUC = 1,是完美分類器。
-
AUC = [0.85, 0.95], 效果很好
-
AUC = [0.7, 0.85], 效果一般
-
AUC = [0.5, 0.7],效果較低,但用於預測股票已經很不錯了
-
AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。
-
AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優於隨機猜測。