正確的、相關的(wanted) | 不正確的、不相關的 | ||||
|
|
|
|||
|
|
|
然而在實際當中我們當然希望檢索的結果P越高越好,R也越高越好;事實上這兩者在某些情況下是矛盾的。比如,我們只搜出了一個結果,且是准確的,那么P就是100%,但是R就很低;而如果我們把所有結果都返回,那么必然R是100%,但是P很低。因此在不同的場合中需要自己判斷希望P比較高還是R比較高。如果是做實驗,可以繪制Precision-Recall曲線來幫助分析。
F-Measure是Precision和Recall加權調和平均:
當參數a=1時,就是最常見的F1了:
很容易理解,F1綜合了P和R的結果,當F1較高時則比較說明實驗方法比較理想。
二、
自然語言處理(ML),機器學習(NLP),信息檢索(IR)等領域,評估(evaluation)是一個必要的工作,而其評價指標往往有如下幾點:准確率(accuracy),精確率(Precision),召回率(Recall)和F1-Measure。
本文將簡單介紹其中幾個概念。中文中這幾個評價指標翻譯各有不同,所以一般情況下推薦使用英文。
現在我先假定一個具體場景作為例子:
假如某個班級有男生80人,女生20人,共計100人.目標是找出所有女生.
現在某人挑選出50個人,其中20人是女生,另外還錯誤的把30個男生也當作女生挑選出來了.
作為評估者的你需要來評估(evaluation)下他的工作
將挑選結果用 矩陣示意表來表示 : 定義TP,FN,FP,TN四種分類情況
相關(Relevant),正類 | 無關(NonRelevant),負類 | |
被檢索到(Retrieved) | TP 系統檢索到的相關文檔,例"其中20人是女生" | FP 系統檢索到的不相關文檔,例”錯誤把30個男生當女生“ |
未被檢索到(Not Retrieved) | FN 相關系統未檢索到的文檔,例"未挑0人是女生" | TN 相關但是系統沒有檢索到的文檔,例”未挑50人非女生“ |
准確率(accuracy)的公式是,其定義是: 對於給定的測試數據集,分類器正確分類的樣本數與總樣本數之比。也就是損失函數是0-1損失時測試數據集上的准確率
A = (20+50) / 100 = 70%
精確率(precision)的公式是,它計算的是所有被檢索到的item中,"應該被檢索到"的item占的比例。
P = 20 / (20+30) = 40%
召回率(recall)的公式是,它計算的是所有檢索到的item占所有"應該檢索到的item"的比例。
R = 20 / (20 + 0) = 100%
綜合評價指標(F-Measure)是Precision和Recall加權調和平均:
當參數a=1時,就是最常見的F1了:
P和R指標有的時候是矛盾的,綜合考慮精確率(precision)和召回率(recall)這兩個度量值。很容易理解,F1綜合了P和R的結果,當F1較高時則比較說明實驗方法比較理想。
F1 = 2*0.4*1 / (0.4 + 1) = 57%