機器學習評價方法 - Recall & Precision


剛開始看這方面論文的時候對於各種評價方法特別困惑,還總是記混,不完全統計下,備忘。

關於召回率和精確率,假設二分類問題,正樣本為x,負樣本為o:

准確率存在的問題是當正負樣本數量不均衡的時候:

精心設計的分類器最后算准確率還不如直接預測所有的都是正樣本。

用Recall和Precision來衡量分類效果,可以使用F1 Score = 2PR/(P+R)來判斷分類效果。

調整分類器,移動到這里:

Recall達到百分之一百,但同時Precision也下降了:把不是負樣本也分類成了正樣本。一般來說,R高,P低,或者R低,P高。大概長這樣:

 

從這里偷來的圖

一個好的分類方法當然是希望二者都盡量高,也就是右圖紅色線那樣,所以提出又提出了一個衡量標准:mAP=∫P(R)dR,(PR曲線面積越大越好)。

 

當然不同應用有不同需求,還是要根據具體應用設計。

記得微軟ECCV14的人臉檢測就是先用OpenCV里的VJ方法,把Recall調得很高,盡量保證不漏檢,同時帶來的問題是Precision很低,有很多不是臉的東西,再通過3000幀人臉對齊方法,迭代幾次,一邊對齊人臉一邊把不是臉的排除掉。

 

另外還有 ROC AUC 及其他各種......

ROC和AUC也是針對正負樣本數量不均衡的,參考這里

ROC曲線越靠近左上角,試驗的准確性就越高。最靠近左上角的ROC曲線的點是錯誤最少的最好閾值,其假陽性和假陰性的總數最少。亦可通過分別計算各個試驗的ROC曲線下的面積(AUC)進行比較,哪一種試驗的 AUC最大,則哪一種試驗的診斷價值最佳。

kISSME(cvpr12)里的ROC曲線:

 

關於Precision和Recall,在Ng的cousera課程 week6 lecture11里有


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM