機器學習模型評估方法


評估指標的局限性

  • 准確率(Accuracy)

    • \(\text{Accuracy} = \dfrac{n_{correct}}{n_{total}}\)
    • 樣本不均衡時,不准確
    • 改進:平均准確率
  • 精確率(Precision)和召回率(Recall)

    • 精確率:分類正確的正樣本個數占分類器判定為正樣本的樣本個數比例

    • 召回率:分類正確的正樣本個數占真正的正樣本個數的比例

    • \(Precision = (TP) / (TP + FP)\)

    • \(Recall = TP / (TP + FN)\)

    • \(F1 = (2 \times p \times r) / (p + r)\) 調和平均數

  • 均方根誤差(Root Mean Square Error, RMSE)

    • 常用來衡量回歸模型

    • 易受離群點影響(基於歐式距離)

    • 改進:平均絕對百分比誤差(MAPE)

      \[MAPE = \sum_{i=1}^n|\frac{y_i - \hat{y}_i}{y_i}|\times \frac{100}{n} \]

PR曲線和ROC曲線

  • PR曲線

    • 排序問題,通常沒有確定閾值確定正負樣本

    • 認為模型Top N結果就是模型判定的正樣本,然后計算前N個位置上的准確率Precision@N和Recall@N

  • ROC曲線(受試者工作特征曲線)

    • 縱坐標:真陽率(True Positive Rate)。\(TPR = TP / P\)
    • 橫坐標:假陽率(False Positive Rate)。 \(FPR = FP / N\)
    • 二值分類問題中,模型輸出預測為正樣本的概率。將樣本按照概率排序,不斷移動截斷點生成曲線上的關鍵點。截斷點就是區分正負樣例預測結果的閾值。
  • AUC

    • AUC越大,說明模型把真正的正樣本排在前面,性能越好
  • PR曲線與ROC曲線比較

    • ROC能盡量降低不同數據集帶來的干擾,形狀比較穩定
    • PR曲線適用於特定數據集,更直觀

余弦距離

  • 用余弦相似度表示余弦距離
  • 歐氏距離用來研究數值的絕對差異(相同維度差異),余弦距離用來研究相對差異(比如各維度的差異)
  • 在單位圓上有:\(||A-B||_2 = \sqrt{2(1-cos(A,B))}\)
  • 余弦距離滿足正定性、對稱性,不滿足三角不等式(可通過單位圓舉出反例)
  • KL距離不滿足對稱性和三角不等式

A/B測試

  • 原因:
    • 離線評估可能過擬合
    • 線上工程環境不同
    • 某些商業指標在離線評估時無法計算
  • 方法:
    • 用戶分桶:實驗組和對照組
    • 樣本的獨立性和采樣方式的無偏性

模型評估方法

  • Holdout檢驗:划分訓練集和測試集
  • 交叉檢驗
  • 留p檢驗
  • 自助法:當樣本數很大時,大約有36.8%樣本從未選擇過,可用作驗證集

超參數調優

  • 網格搜索,局部最優解
  • 隨機搜索,局部最優解
  • 貝葉斯優化方法:
    • 首先根據先驗分布,設置一個搜集函數,然后采樣測試目標函數,並利用這個信息更新目標函數的先驗分布。最后,算法測試由后驗分布給出的最值最可能出現的位置的點
    • 探索+利用的平衡

過擬合和欠擬合

  • 過擬合
    • 訓練集效果好,泛化能力差
    • 降低過擬合:
      • 獲取更多訓練數據
      • 降低模型復雜度
      • 增加正則化
      • 集成學習,降低單一模型過擬合風險
  • 欠擬合
    • 訓練集和測試集效果都很差
    • 降低欠擬合
      • 添加更多特征
      • 增加模型復雜度
      • 減小正則化系數


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM