多分類問題中查全率和查准率的理解

本文轉載自查看原文 2019-04-24 16:32 1240 機器學習/ 數據挖掘

查全率查准率是從信息檢索來的，那么我們就得先看看原來的是怎么定義的：

查全率——它是指檢出的相關文獻量與檢索系統中相關文獻總量的比率，是衡量信息檢索系統檢出相關文獻能力的尺度。
查准率——它是指檢出的相關文獻量與檢出文獻總量的比率，是衡量信息檢索系統檢出文獻准確度的尺度。

使用泛指性較強的檢索語言(如上位類、上位主題詞)能提高查全率，但查准率下降。
使用專指性較強的檢索語言(如下位類、下位主題詞)能提高查准率，但查全率下降。
下面用多分類問題舉個例子，首先我們計算多分類問題的混淆矩陣，然后計算各個指標，結果如下：

confus =

69            2              4              6           1          14           4
3             70            6              2   7           6    6
4              6             66       2       5           6          11
2              2             18      51          9          12          6
4              8    1               2          80   3           2
7       6   3              7           2   67        8
11       6       7    5           7   6      58

accuracy =0.6586

numcorrect =461

precision =0.6900 0.7000 0.6286 0.6800 0.7207 0.5877 0.6105

recall =0.6900 0.7000 0.6600 0.5100 0.8000 0.6700 0.5800

F =0.6900 0.7000 0.6439 0.5829 0.7583 0.6262 0.5949

這是一個7-分類問題，每一類樣本100。混淆矩陣看見了么？ confus矩陣中每一行和等於該類的樣本和=100；但是每一列就不是100了，每一列其實的意義，就是信息檢索的返回的所有結果。

假設我們用類別3的標簽進行搜索，那么會返回confus中第3列的所有數據，沒問題吧？因為分到第3類的確實是這些數據，一共有105個，因為有其他的類也分到這個類中了唄。

所以第三類的查准率=檢索出的相關文檔數目（66）/檢索返回的所有的文檔數目（105）=0.6288=precision(3)。結果是沒問題的吧。

查全率那就是檢索出的文檔數目（66）/數據庫中的第三類的所有文檔數目（檢索出的第三類+沒有檢索出的第三類=confus第三行的和=100）=0.66=recall(3)。也沒問題吧。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 查准率與查全率(precision and recall) 的個人理解【筆記】關於多分類問題中的混淆矩陣，精准率多分類問題中，實現不同分類區域顏色填充的MATLAB代碼（demo：Random Forest）深度學習分類問題中accuracy等評價指標的理解 sklearn多分類問題 P(查准率)，R(查全率)，F1 值多分類問題 pytorch實戰：詳解查准率（Precision）、查全率（Recall）與F1 自我學習與理解：keras框架下的深度學習（二）二分類和多分類問題分類問題中的“維數災難”