文本分類之六分類結果評估

本文轉載自查看原文 2017-06-17 15:46 1602 文本分類

機器學習領域的算法評估有三個基本的指標。

召回率（Recall Rate，也叫查全率）：是檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率，衡量的是檢索系統的查全率。
召回率=系統檢索到的相關文檔數/系統所有相關文檔的總數
准確率（Precision，也稱為精度）：是檢索出的相關文檔數與檢索出的文檔總數的比率，衡量的是檢索系統的查准率。
准確率=系統檢索到的相關文件/系統所有檢索到的文件總數

注意：准確率和召回率是互相影響的，理想情況下肯定是做到二者都高，但是一般情況下，准確率高，召回率就低；反之亦然。

F-Score：機器學習中常用的評價標准。其中，最常見的是F1-Measure，公式為：F1=2PR/(P+R)
文本分類項目的分類結果評估，代碼如下：

from sklearn import metrice
def metrics_result(actual, predict):  
    print '精度:{0:.3f}'.format(metrics.precision_score(actual, predict,average='weighted'))  
    print '召回:{0:0.3f}'.format(metrics.recall_score(actual, predict,average='weighted'))  
    print 'f1-score:{0:.3f}'.format(metrics.f1_score(actual, predict,average='weighted'))  
  
metrics_result(test_set.label, predicted)

注意：單獨運行這個代碼會報錯，把這一部分加到貝葉斯模型的程序中運行，就可以得到正確的結果。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 XGBoost文本分類，多分類、二分類、10-Fold（K-Fold） Tensorflow二分類處理dense或者sparse(文本分類)的輸入數據二分類算法評估指標文本分類--多分類文本分類實戰基於paddlepaddle的文本分類文本分類概述 sklearn 基本的文本分類文本分類與SVM CNN文本分類