剛開始看這方面論文的時候對於各種評價方法特別困惑,還總是記混,不完全統計下,備忘。
關於召回率和精確率,假設二分類問題,正樣本為x,負樣本為o:
准確率存在的問題是當正負樣本數量不均衡的時候:
精心設計的分類器最后算准確率還不如直接預測所有的都是正樣本。
用Recall和Precision來衡量分類效果,可以使用F1 Score = 2PR/(P+R)來判斷分類效果。
調整分類器,移動到這里:
Recall達到百分之一百,但同時Precision也下降了:把不是負樣本也分類成了正樣本。一般來說,R高,P低,或者R低,P高。大概長這樣:
一個好的分類方法當然是希望二者都盡量高,也就是右圖紅色線那樣,所以提出又提出了一個衡量標准:mAP=∫P(R)dR,(PR曲線面積越大越好)。
當然不同應用有不同需求,還是要根據具體應用設計。
記得微軟ECCV14的人臉檢測就是先用OpenCV里的VJ方法,把Recall調得很高,盡量保證不漏檢,同時帶來的問題是Precision很低,有很多不是臉的東西,再通過3000幀人臉對齊方法,迭代幾次,一邊對齊人臉一邊把不是臉的排除掉。
另外還有 ROC AUC 及其他各種......
ROC和AUC也是針對正負樣本數量不均衡的,參考這里
ROC曲線越靠近左上角,試驗的准確性就越高。最靠近左上角的ROC曲線的點是錯誤最少的最好閾值,其假陽性和假陰性的總數最少。亦可通過分別計算各個試驗的ROC曲線下的面積(AUC)進行比較,哪一種試驗的 AUC最大,則哪一種試驗的診斷價值最佳。
kISSME(cvpr12)里的ROC曲線:
關於Precision和Recall,在Ng的cousera課程 week6 lecture11里有