在搭建一個AI模型或者是機器學習模型的時候怎么去評估模型,比如我們前期講的利用朴素貝葉斯算法做的垃圾郵件分類算法,我們如何取評估它。我們需要一套完整的評估方法對我們的模型進行正確的評估,如果模型效果比較理想的話則可以放到線上使用,如果不理想的話則需要反復的去調整相關參數進行訓練直到達到目的。
而准確率、精確率、召回率和F1值則是選出目標的重要評價指標,我們看下這些指標的定義:
- 若一個實例為正類,實際預測為正類,即為真正類(True Positv TP)
- 若一個實例為負類,實際預測為負類,即為真負類(True Negative TN)
- 若一個實例為負類,實際預測為正類,即為假正類(False Positv FP)
- 若一個實例為正類,實際預測為負類,即為假負類(True Negative, TN)
如下表所示,其中1代表正類、0代表負類
預測 | ||||
---|---|---|---|---|
1 | 0 | 合計 | ||
實際 | 1 | True Positive TP | False Negative FN | Actual Positive(TP+FN) |
0 | False Positive FP | True Negative TN | Actival Netagive(FP+TN) | |
合計 | Predicted Positive(TP+FP) | Predicted Negative(TN+FN) | TP+FN+FP+TN |
TP:正確的匹配數目
FP:誤分類,匹配不正確的數目
FN:漏分類,沒有找到正確匹配的數目
TN:正確的非匹配數目
針對正樣本的相關計算,負樣本可以同樣方法計算
准確率(正確率)=所有預測正確的樣本/總的樣本 (TP+TN)/總
精確率=將正類預測為正類/所有預測為正類 TP/(TP+FP)
召回率=將正類預測為正類/所有真正的正類 TP/(TP+FN)
F值=精確率*召回率*2/(精確率+召回率) (F值為精確率和召回率的調和平均值)
上述計算是針對二分類的方式進行計算,如果是針對多分類的方式,可以針對每一個類別分別計算精確率、召回率,而后計算各個分類的F值,最后將F值取平均即可。