文本分類之六分類結果評估


機器學習領域的算法評估有三個基本的指標。

  1. 召回率(Recall Rate,也叫查全率):是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索系統的查全率。
    召回率=系統檢索到的相關文檔數/系統所有相關文檔的總數
  2. 准確率(Precision,也稱為精度):是檢索出的相關文檔數與檢索出的文檔總數的比率,衡量的是檢索系統的查准率。
    准確率=系統檢索到的相關文件/系統所有檢索到的文件總數

注意:准確率和召回率是互相影響的,理想情況下肯定是做到二者都高,但是一般情況下,准確率高,召回率就低;反之亦然。

  1. F-Score:機器學習中常用的評價標准。其中,最常見的是F1-Measure,公式為:F1=2PR/(P+R)
    文本分類項目的分類結果評估,代碼如下:
from sklearn import metrice
def metrics_result(actual, predict):  
    print '精度:{0:.3f}'.format(metrics.precision_score(actual, predict,average='weighted'))  
    print '召回:{0:0.3f}'.format(metrics.recall_score(actual, predict,average='weighted'))  
    print 'f1-score:{0:.3f}'.format(metrics.f1_score(actual, predict,average='weighted'))  
  
metrics_result(test_set.label, predicted) 

注意:單獨運行這個代碼會報錯,把這一部分加到貝葉斯模型的程序中運行,就可以得到正確的結果。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM