P-R圖直觀的顯示出學習器在樣本總體上的查全率和查准率,在進行比較時,若一個學習器的P-R曲線被另一個學習器的曲線完全包住則后者的性能優於前者,比如A比C好。
如果發生交叉現象則可以用F1度量(P-R曲線比ROC曲線適合不平衡樣本):
$F1=\frac{2 P R}{P + R}$
一般形式(表達出對查准率/查全率的不同偏好):
$F_{\beta}=\frac{(1 + \beta^{2}) P R}{(\beta^{2} P) + R}$
$F_{\beta}$是加權調和平均:
$\frac{1}{F_{\beta}}=\frac{1}{1 + \beta^{2}} (\frac{1}{P} + \frac{\beta^{2}}{R})$
其中$\beta>0$度量了查全率對查准率的相對重要程度,$\beta=1$退化為標准的F1,$\beta>1$時查全率有更大影響,$\beta<1$查准率有更大的影響。
很多時候我們有多個二分類混淆矩陣,甚至是執行多分類任務,每倆倆類別的組合都對應一個混淆矩陣,總之我們希望在n個二分類的混淆矩陣上綜合考察查准率和查全率。
1.計算P、R、F1的平均值
2.計算TP、FP、TN、FN的平均值,再計算P、R、F1。
ROC和AUG:很多學習器是為ce測試樣本產生一個實值或概率預測,然后將這個預測值與一個分類閾值進行比較,若大於閾值則為正類,否則為反類。
真正例率(縱坐標):
$TPR=\frac{TP}{TP + FN}$
假正例率(橫坐標):
$FPR=\frac{FP}{TN + FP}$
繪圖:
給定m+個正例和m-個反例,根據學習器預測結果對樣例進行排序,然后把分類閾值設為最大,即把全部樣例均預測為反例。此時真正例率和假反例率均為0,然后將分類閾值依次設為每一個樣例的預測值,即依次將每個樣例划分為正例。
進行學習器的比較時,與P-R圖類似,若一個學習器的ROC曲線被另一個學習器的曲線完全包住則后者的性能優於前者。若發生交叉則比較倆者的面積即AUG。
$AUG \approx \frac{1}{2} \sum_{i = 1}^{m - 1} (x_{i + 1} - x_{i}) (y_{i} + y_{i + 1})$