深度學習常用的模型評估指標


    科學家門捷列夫曾經說過“沒有測量,就沒有科學”

    在計算機科學中,特別是在機器學習的領域,對模型的測量和評估同樣至關重要。只有選擇與問題相匹配的評估方法,我們才能夠快速的發現在模型選擇和訓練過程中可能出現的問題,迭代地對模型進行優化。

    本文總結了機器學習常見的模型評估指標,其中包括:

1、Precision

2、Recall

3、PRC

4、F1-Score

5、ROC和AUC

6、IOU

7、Ap和mAp

8、Inception score

在討論這些評估指標之前,先了解下什么是混淆矩陣。

打個比方:

    假定瓜農拉來一車西瓜,我們用訓練好的模型對這些西瓜進行判別,顯然我們可以使用錯誤率來衡量有多少比例的瓜被判別錯誤。但如果我們關心的是“挑出的西瓜中有多少比例是好瓜”,或者“所有好瓜中有多少比例被挑出來了”,那么錯誤率顯然就不夠用了,這時我們需要引入新的評估指標,比如“查准率”和查全率更適合此類需求的性能度量。

     

上圖中a就是混淆矩陣,b就是由混淆矩陣推出的一些評估指標。

下面對混淆矩陣的四個值進行總結性講解:

  • True Positive (真正,TP)被模型預測為正的正樣本
  • True Negative(真負 , TN)被模型預測為負的負樣本
  • False Positive (假正, FP)被模型預測為正的負樣本
  • False Negative(假負 , FN)被模型預測為負的正樣本

1、Precision(查准率或者是精確率)

查准率Precision=TP/(TP+FP),表示的是召回為正樣本的樣本中,到底有多少是真正的正樣本。

2、Recall(查全率)

查全率(Recall)Recall=TP/(TP+FN),表示的是有多少樣本被召回類。

查准率和查全率是一對矛盾的度量,一般而言,查准率高時,查全率往往偏低;而查全率高時,查准率往往偏低。通常只有在一些簡單任務中,才可能使查全率和查准率都很高。

3、PRC

全稱就是Precision Recall Curve,它以查准率為Y軸,、查全率為X軸做的圖。它是綜合評價整體結果的評估指標。所以,哪個類型(正或者負)樣本多,權重就大。也就是說『對樣本不均衡敏感』,『容易被多的樣品帶走』。

上圖就是一幅P-R圖,它能直觀地顯示出學習器在樣本總體上的查全率和查准率,顯然它是一條總體趨勢是遞減的曲線。在進行比較時,若一個學習器的PR曲線被另一個學習器的曲線完全包住,則可斷言后者的性能優於前者,比如上圖中A優於C。但是B和A誰更好呢?因為A和B兩條曲線交叉了,所以很難比較,這時比較合理的判據就是比較PR曲線下的面積,該指標在一定程度上表征了學習器在查准率和查全率上取得相對“雙高”的比例。因為這個值不容易估算,所以人們引入“平衡點”(BEP)來度量,他表示“查准率=查全率”時的取值,值越大表明分類器性能越好,以此比較我們一下子就能判斷A較B好。

4、F1-Score

有時關注的不僅僅是正樣本的准確率,也關心其召回率,但是又不想用Accuracy來進行衡量,一個折中的指標是采用F-score。

它是一個綜合考慮precision和recall的指標,只有在召回率Recall和精確率Precision都高的情況下,F1 score才會很高,比BEP更為常用。

5、ROC和AUC

ROC全稱是“受試者工作特征”(Receiver Operating Characteristic)曲線,ROC曲線以“真正例率”(TPR)為Y軸,以“假正例率”(FPR)為X軸,對角線對應於“隨機猜測”模型,而(0,1)則對應“理想模型”。ROC形式如下圖所示。

 

其中有4個關鍵的點:

點(0,0):FPR=TPR=0,分類器預測所有的樣本都為負樣本;

點(1,1):FPR=TPR=1,分類器預測所有的樣本都為正樣本;

點(0,1):FPR=0, TPR=1,此時FN=0且FP=0,所有的樣本都正確分類;

點(1,0):FPR=1,TPR=0,此時TP=0且TN=0,最差分類器,避開了所有正確答案。

TPR和FPR的定義如下:

TPR就是我們上面提到的查全率Recall,而FPR的含義就是:所有確實為“假”的樣本中,被誤判真的樣本。

若要進行比較,那么可以比較ROC曲線下的面積,即AUC,面積大的曲線對應的分類器性能更好。AUC(Area Under Curve)的值為ROC曲線下面的面積,若分類器的性能極好,則AUC為1。但現實生活中尤其是工業界不會有如此完美的模型,一般AUC均在0.5到1之間,AUC越高,模型的區分能力越好。若AUC真的小於0.5,請檢查一下是不是好壞標簽標反了,或者是模型真的很差。

以上討論的是分類任務中的評價指標,接下來這個是目標檢測任務中常用的評價指標

6、IOU

交並比

舉個例子:

下圖綠色框是感興趣區域,紅色框是預測區域,這種情況下交集確實是最大的,但是紅色框並不能准確預測物體位置。因為預測區域是試圖覆蓋目標物體而不是正好預測物體位置。這時如果我們能除以一個並集的大小,就可以規避這種問題。這就是IOU要解決的問題了。

IOU:預測框與標注框的交集與並集之比,數值越大表示該檢測器的性能越好。

使用IOU評價指標后,上面提到的問題就能得到有效解決:我們控制並集不要讓並集太大,對准確預測是有益的,這就有效抑制了“一味地追求交集最大”的情況的發生。下圖的2,3小圖就是目標檢測效果比較好的情況。

7、Ap和mAp

Average Precision簡稱AP,這是一個在檢索任務和回歸任務中經常使用的指標,實際等於Precision-Recall曲線下的面積。

假如一幅圖像,有10個人臉,檢索出來了20個目標框,每一個目標框的概率以及真實的標簽如下,真實標簽的計算就用檢測框與真實標注框的IoU是否大於0.5來計算。

第一步,就是根據模型得到概率,計算IoU得到下面的表:

 

第二步,將上面的表按照概率進行排序

 

Precision的計算如下,以返回的top-5結果為例:

 

在這個例子中,true positives就是真正的人臉,從Label一欄可以看出,指的是id = 4,2,7,9,16,20的樣本。

前5個概率值最大的id中13,19,6是false positives。所以此時的Precision=2/5=40%,即選定了5個人臉,但是只有兩個是對的。recall=2/6=33.3%,即總共有6個人臉,但是只召回了2個。

在一個實際的目標檢測任務中,目標的數量不一定是5個,所以不能只通過top-5來來衡量一個模型的好壞,選定的id越多,recall就越高,precision整體上則會呈現出下降趨勢,因為排在前面的概率高的,一般更有可能是真實的樣本,而后面概率低的更有可能是負樣本。

令N是所有id,如果從top-1到top-N都統計一遍,得到了對應的precision和recall,以recall為橫坐標,precision為縱坐標,則得到了檢測中使用的precision-recall曲線,雖然整體趨勢和意義與分類任務中的precision-recall曲線相同,計算方法卻有很大差別。

PASCAL VOC 2010年提出了mAP,對於樣本不均衡的類的計算更加有效。假設有N個id,其中有M個label,則取M個recall節點,從0到1按照1/M的等間距,對於每個recall值,計算出大於該recall值的最大precision,然后對這M個precision值取平均得到最后的AP值,mAP的計算方法不變。

AP衡量的是學出來的模型在一個類別上的好壞,mAP衡量的是學出的模型在所有類別上的好壞。

8、Inception score

圖像生成評價指標,有兩個重要指標

1、確定性,2、多樣性

Inception圖像分類模型預測結果是一個softmax后的向量,即概率分布p(y|x)。一個好的分類模型,該向量分布的熵應該盡可能地小,也就是樣本必須明確符合某一個類,其中的一個值很大,剩下的值很小。另外,如果把softmax后的向量組合並在一起形成另一個概率分布p(y),為了滿足多樣性,這個分布的熵應該是越大越好,也就是各種類別的樣本都有。

具體實現就是讓p(y|x)和p(y)之間的KL散度越大越好,連續形式的表達如下:

 

實際的計算就是將積分換成求和:

 

Inception Score是一個非常好的評價指標,它同時評估生成圖像的質量和多樣性,前段時間大火的BigGAN,就是將Inception Score提升為原來最好模型的3倍不止。

不過Inception Score也有缺陷,因為它僅評估圖像生成模型,沒有評估生成的圖像與原始訓練圖像之間的相似度,因此雖然鼓勵模型學習了質量好,多樣性好的圖像,但是卻不能保證是我們想要的圖像。Mode分數對其進行了改進,增加了KL散度來度量真實分布P_r與生成分布P_g之間的差異。

2.Kernel MMD

最大平均差異maximum mean discrepancy Kernel也是一個用於判斷兩個分布p和q是否相同的指標。它的基本假設就是如果兩個樣本分布相似,那么通過尋找在樣本空間上的連續函數f,求不同分布的樣本f函數的均值,計算均值的差作為兩個分布在f函數下的平均差異,選擇其中最大值就是MMD。

對於深度學習任務來說,可以選擇各種預訓練模型的特征空間,比如性能很好的ResNet。MMD方法的樣本復雜度和計算復雜度都比較低,不過是有偏的,關鍵就在於用於選擇的函數空間是否足夠豐富。

 

參考鏈接:

1、https://www.cnblogs.com/skyfsm/p/8467613.html

2、https://www.cnblogs.com/tectal/p/10870064.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM