召回率表示的是樣本中的某類樣本有多少被正確預測了。比如對與一個分類模型,A類樣本包含A0個樣本,預測模型分類結果是A類樣本中有A1個正樣本和A2個其他樣本,那么該分類模型的召回率就是 A1/A0,其中 A1+A2=A0
准確率表示的是所有分類中被正確分類的樣本比例,比如對於一個分類模型,樣本包含A和B兩類,模型正確識別了A類中的A0個樣本,B類中的B0個樣本,則准確率為 (A0+B0)/(A+B)
ROC曲線是以假正率(FP_rate)和真正率(TP_rate)為軸的曲線,ROC曲線下面的面積我們叫做AUC,如下圖所示:
曲線與FP_rate軸圍成的面積(記作AUC)越大,說明性能越好,即:曲線越靠近A點(左上方)性能越好,曲線越靠近B點(右下方)曲線性能越差。
A點是最完美的performance點,B處是性能最差點。
位於C-D線上的點說明算法性能和隨機猜測是一樣的–如C、D、E點。位於C-D之上說明算法性能優於隨機猜測–如G點,位於C-D之下說明算法性能差於隨機猜測–如F點。
ROC曲線在高不平衡數據條件下仍不能夠很好的展示實際情況