多分類建模評估指標


作為機器學習實踐中分類領域下的一個模塊,多分類問題建模也是生產生活應用中的重要組成部分;在模型構建完成之后,對多分類模型的評估影響到后期的模型決策甚至是機器學習解決方案的實際應用效果。

准確有效評估多分類模型的性能,有利於我們建立起對當前模型水平的正確認識;由此,本文着重探討幾種常用的多分類模型評估指標。

二分類評估指標基礎

在談及多分類評估指標之前,首先回顧幾個常見的二分類建模評估指標:

True Positive (TP):正樣本預測為正;
True Negative (TN):負樣本預測為負;
False Positive (FP):負樣本預測為正;
False Negative (FN):正樣本預測為負;

在上述四個指標之上建立的精確率、召回率以及F1值定義如下:

多分類評估指標之宏F1(macro-F1)

類比於二分類評估指標,計算出各類別的精確率、召回率,然后求上述精確率和召回率的均值,再按定義求出macro-F1,如下圖(圖中n表示類別數):

當然,另有一派計算macro-F1的公式,即求取各類別F1值的均值,如下圖(圖中n表示類別數):

多分類評估指標之微F1(micro-F1)

micro-F1的計算同樣用到各類別的有關指標均值,即算出各類別的TP、FP、TN、FN后再計算這四個指標的均值,然后按定義計算精確率、召回率和micro-F1值,如下圖:

其實,經過數學推導可以發現,在微指標方面有以下等式:

多分類評估指標之准確率(Accuracy)

由前述內容,准確率(Accuracy)等於微F1值(micro-F1),其最本質的定義是指所有被正確分類的樣本占總樣本的比例。

在准確率基礎上,還有一個平均准確率指標,即各類別准確率的均值。

多分類評估指標之分類報告(classification_report)和混淆矩陣(confusion_matrix)

當然,嚴格地說classification_report並不算是一個評估指標,只是sklearn在內置函數庫中提供了這樣一個接口,以供查看上述指標的詳細狀況:

上圖為鳶尾花三分類的分類報告情況;
下圖為該實例的confusion_matrix情況:

多分類建模評估指標相較於二分類的而言,確實要少一些,上述列舉的是多分類指標中最為常用的,希望有所幫助!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM