多分類問題中查全率和查准率的理解


查全率查准率是從信息檢索來的,那么我們就得先看看原來的是怎么定義的:

查全率——它是指檢出的相關文獻量與檢索系統中相關文獻總量的比率,是衡量信息檢索系統檢出相關文獻能力的尺度。
查准率——它是指檢出的相關文獻量與檢出文獻總量的比率,是衡量信息檢索系統檢出文獻准確度的尺度。

使用泛指性較強的檢索語言(如上位類、上位主題詞)能提高查全率,但查准率下降。
使用專指性較強的檢索語言(如下位類、下位主題詞)能提高查准率,但查全率下降。
下面用多分類問題舉個例子,首先我們計算多分類問題的混淆矩陣,然后計算各個指標,結果如下:

confus =

69            2              4              6           1          14           4
3             70            6              2           7           6            6
4              6             66             2           5           6          11
2              2             18            51          9          12          6
4              8              1               2          80         3           2
7             6               3              7           2           67        8
11           6               7              5           7           6          58

accuracy =0.6586

numcorrect =461

precision =0.6900    0.7000    0.6286    0.6800    0.7207    0.5877    0.6105

recall =0.6900    0.7000    0.6600    0.5100    0.8000    0.6700    0.5800

F =0.6900    0.7000    0.6439    0.5829    0.7583    0.6262    0.5949

這是一個7-分類問題,每一類樣本100。混淆矩陣看見了么? confus矩陣中每一行和等於該類的樣本和=100;但是每一列就不是100了,每一列其實的意義,就是信息檢索的返回的所有結果。

假設我們用類別3的標簽進行搜索,那么會返回confus中第3列的所有數據,沒問題吧?因為分到第3類的確實是這些數據,一共有105個,因為有其他的類也分到這個類中了唄。

所以第三類的查准率=檢索出的相關文檔數目(66)/檢索返回的所有的文檔數目(105)=0.6288=precision(3)。結果是沒問題的吧。

查全率那就是檢索出的文檔數目(66)/數據庫中的第三類的所有文檔數目(檢索出的第三類+沒有檢索出的第三類=confus第三行的和=100)=0.66=recall(3)。也沒問題吧。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM