機器學習模型評估指標總結


 常用機器學習算法包括分類、回歸、聚類等幾大類型,以下針對不同模型總結其評估指標

一、分類模型

常見的分類模型包括:邏輯回歸、決策樹、朴素貝葉斯、SVM、神經網絡等,模型評估指標包括以下幾種:

(1)二分類問題

  (a)混淆矩陣

    准確率A:預測正確個數占總數的比例

    精准率P:正例樣本中有多少被預測正確了

    召回率R:預測的正例樣本中有多少是正確的

    F1 Score(精准率與召回率集成):2P*R/(P+R)

  (b)ROC曲線:ROC曲線應盡量偏離參考線,越靠近左上越好

  (c)AUC:ROC曲線下面積,參考線面積為0.5,AUC應大於0.5,且偏離越多越好

  (d)Lift曲線:表示“運用該模型”與“未運用該模型即隨機選擇”所得結果的比值,Lift應該移植大於1,且Lift(提升指數)越大,模型預測效果越好

(2)多分類問題

  評價多分類模型一般采用准確率作為評估指標

二、回歸模型

常見的回歸模型包括線性回歸、多項式回歸、Lasso回歸、嶺回歸、彈性網絡、SVM、神經網絡,評估指標見以下總結

(1)MSE

  均方誤差,SSE/m,值越小代表擬合效果越好,用來衡量不同模型對於同一數據集的擬合效果

(2)R^2

  決定系數,1-SSE/SST,用於度量模型的解釋能力,是相關系數的平方,取值范圍為0~1,越接近1表示模型參考價值越高,在scikit-learn中LinearRegression.score就是使用的決定系數,也可以使用專門的庫metrics.r2_score

(3)修正的R^2

  在多元線性回歸中,決定系數會虛高,加一個自變量就會增大,加公式進行修正  1-[SSE/(n-p-1)/[SST/(n-1)],得到修正的決定系數

三、聚類模型

常見的聚類模型有KMeans、密度聚類、層次聚類等,主要從簇內的稠密成都和簇間的離散程度來評估聚類的效果,評估指標包括:

(1)輪廓系數 Silhouette Corfficient

  輪廓系數由凝聚度和分離度共同構成,組內SSE越小,組間SSB越大,聚類效果越好,輪廓系數在-1~1之間,值越大,聚類效果越好

(2)協方差系數 Calinski-Harabaz Index

  類別內部數據協方差越小越好,類別之間協方差越大越好,這樣協方差系數會越高。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM