准確率(accuracy),精確率(Precision),召回率(Recall)和綜合評價指標(F1-Measure )----轉


 
Recall(召回率);Precision(准確率);F1-Meature(綜合評價指標);
 
    在信息檢索(如搜索引擎)、自然語言處理和檢測分類中經常會使用這些參數,介於語言翻譯上的原因理解難免出現誤差,下面介紹下自己對他們的理解。
 
首先來個定義:
Precision:被檢測出來的信息當中 正確的或者相關的(也就是你想要的)信息中所占的比例;
Recall:所有正確的信息或者相關的信息(wanted)被檢測出來的比例。
F1-Meature后面定義。
 
查了資料都習慣使用四格圖來解釋,來個易懂的四格圖:
  正確的、相關的(wanted) 不正確的、不相關的
檢測出來的
true  positives (納真tp)
false  positives(納偽fp)
未檢測出來的
false  negatives(去真fn)
true  negatives  (去偽tn)
 
 
表格中的翻譯比較重要,可以幫助理解。
true positives (納真)    false positives(納偽)
false negatives(去真)true negatives  (去偽)
其中false positives(納偽)也通常稱作誤報,false negatives也通常稱作漏報!
 
Precision =   tp/(tp + fp);
Recall = tp / (tp + fn).
同樣還有另外兩個定義
\mbox{True Negative Rate}=\frac{tn}{tn+fp} \,
\mbox{Accuracy}=\frac{tp+tn}{tp+tn+fp+fn} \,

然而在實際當中我們當然希望檢索的結果P越高越好,R也越高越好;事實上這兩者在某些情況下是矛盾的。比如,我們只搜出了一個結果,且是准確的,那么P就是100%,但是R就很低;而如果我們把所有結果都返回,那么必然R是100%,但是P很低。因此在不同的場合中需要自己判斷希望P比較高還是R比較高。如果是做實驗,可以繪制Precision-Recall曲線來幫助分析。

 

 

F-Measure是Precision和Recall加權調和平均:
F = \frac{(a^2+1)P*R} {a^2(P+R)} \hfill (3)

當參數a=1時,就是最常見的F1了:
F1 = \frac{2PR} {P+R} \hfill (4)

很容易理解,F1綜合了P和R的結果,當F1較高時則比較說明實驗方法比較理想。

二、

自然語言處理(ML),機器學習(NLP),信息檢索(IR)等領域,評估(evaluation)是一個必要的工作,而其評價指標往往有如下幾點:准確率(accuracy),精確率(Precision),召回率(Recall)和F1-Measure。

本文將簡單介紹其中幾個概念。中文中這幾個評價指標翻譯各有不同,所以一般情況下推薦使用英文。

 

現在我先假定一個具體場景作為例子:

假如某個班級有男生80人,女生20人,共計100人.目標是找出所有女生.
現在某人挑選出50個人,其中20人是女生,另外還錯誤的把30個男生也當作女生挑選出來了.
作為評估者的你需要來評估(evaluation)下他的工作

 

將挑選結果用 矩陣示意表來表示 : 定義TP,FN,FP,TN四種分類情況

  相關(Relevant),正類 無關(NonRelevant),負類
被檢索到(Retrieved) TP 系統檢索到的相關文檔,例"其中20人是女生" FP 系統檢索到的不相關文檔,例”錯誤把30個男生當女生“
未被檢索到(Not Retrieved) FN 相關系統未檢索到的文檔,例"未挑0人是女生" TN 相關但是系統沒有檢索到的文檔,例”未挑50人非女生“

 

准確率(accuracy)的公式是,其定義是: 對於給定的測試數據集,分類器正確分類的樣本數與總樣本數之比。也就是損失函數是0-1損失時測試數據集上的准確率

A = (20+50) / 100 = 70%

 

精確率(precision)的公式是,它計算的是所有被檢索到的item中,"應該被檢索到"的item占的比例。

 

P = 20 / (20+30) = 40%

 

召回率(recall)的公式是,它計算的是所有檢索到的item占所有"應該檢索到的item"的比例。

R = 20 / (20 + 0) = 100%

 

綜合評價指標(F-Measure)是Precision和Recall加權調和平均:

F = \frac{(a^2+1)P*R} {a^2(P+R)} \hfill (3)

當參數a=1時,就是最常見的F1了:

F1 = \frac{2PR} {P+R} \hfill (4)

P和R指標有的時候是矛盾的,綜合考慮精確率(precision)和召回率(recall)這兩個度量值。很容易理解,F1綜合了P和R的結果,當F1較高時則比較說明實驗方法比較理想。

F1 = 2*0.4*1 / (0.4 + 1) = 57%


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM