評估指標的局限性
-
准確率(Accuracy)
- \(\text{Accuracy} = \dfrac{n_{correct}}{n_{total}}\)
- 樣本不均衡時,不准確
- 改進:平均准確率
-
精確率(Precision)和召回率(Recall)
-
精確率:分類正確的正樣本個數占分類器判定為正樣本的樣本個數比例
-
召回率:分類正確的正樣本個數占真正的正樣本個數的比例
-
\(Precision = (TP) / (TP + FP)\)
-
\(Recall = TP / (TP + FN)\)
-
\(F1 = (2 \times p \times r) / (p + r)\) 調和平均數
-
-
均方根誤差(Root Mean Square Error, RMSE)
-
常用來衡量回歸模型
-
易受離群點影響(基於歐式距離)
-
改進:平均絕對百分比誤差(MAPE)
\[MAPE = \sum_{i=1}^n|\frac{y_i - \hat{y}_i}{y_i}|\times \frac{100}{n} \]
-
PR曲線和ROC曲線
-
PR曲線
-
排序問題,通常沒有確定閾值確定正負樣本
-
認為模型Top N結果就是模型判定的正樣本,然后計算前N個位置上的准確率Precision@N和Recall@N
-
-
ROC曲線(受試者工作特征曲線)
- 縱坐標:真陽率(True Positive Rate)。\(TPR = TP / P\)
- 橫坐標:假陽率(False Positive Rate)。 \(FPR = FP / N\)
- 二值分類問題中,模型輸出預測為正樣本的概率。將樣本按照概率排序,不斷移動截斷點生成曲線上的關鍵點。截斷點就是區分正負樣例預測結果的閾值。
-
AUC
- AUC越大,說明模型把真正的正樣本排在前面,性能越好
-
PR曲線與ROC曲線比較
- ROC能盡量降低不同數據集帶來的干擾,形狀比較穩定
- PR曲線適用於特定數據集,更直觀
余弦距離
- 用余弦相似度表示余弦距離
- 歐氏距離用來研究數值的絕對差異(相同維度差異),余弦距離用來研究相對差異(比如各維度的差異)
- 在單位圓上有:\(||A-B||_2 = \sqrt{2(1-cos(A,B))}\)
- 余弦距離滿足正定性、對稱性,不滿足三角不等式(可通過單位圓舉出反例)
- KL距離不滿足對稱性和三角不等式
A/B測試
- 原因:
- 離線評估可能過擬合
- 線上工程環境不同
- 某些商業指標在離線評估時無法計算
- 方法:
- 用戶分桶:實驗組和對照組
- 樣本的獨立性和采樣方式的無偏性
模型評估方法
- Holdout檢驗:划分訓練集和測試集
- 交叉檢驗
- 留p檢驗
- 自助法:當樣本數很大時,大約有36.8%樣本從未選擇過,可用作驗證集
超參數調優
- 網格搜索,局部最優解
- 隨機搜索,局部最優解
- 貝葉斯優化方法:
- 首先根據先驗分布,設置一個搜集函數,然后采樣測試目標函數,並利用這個信息更新目標函數的先驗分布。最后,算法測試由后驗分布給出的最值最可能出現的位置的點
- 探索+利用的平衡
過擬合和欠擬合
- 過擬合
- 訓練集效果好,泛化能力差
- 降低過擬合:
- 獲取更多訓練數據
- 降低模型復雜度
- 增加正則化
- 集成學習,降低單一模型過擬合風險
- 欠擬合
- 訓練集和測試集效果都很差
- 降低欠擬合
- 添加更多特征
- 增加模型復雜度
- 減小正則化系數