目標檢測常用衡量指標

目標檢測中，存在很多常見的模型評估與選擇的度量方法，本文結合周志華老師的<機器學習>，以及自己的理解對常見的度量方法做一個總結。

基礎介紹

常見的評估方法，我們在進行樣本學習與測試的過程中，通常采用多種方式來進行樣本集合的分類。
(1) 留出法
將樣本按比例分為兩個子集，一個為訓練集，一個為驗證集，通常保證訓練集和驗證集的樣本類別服從同分布。多次划分后取平均的實驗結果作為最終的結果。
(2) 交叉驗證法 (最常用)
通過對數據集划分為k個大小基本相同，分布基本相似的子集，每次從中選取K-1次進行訓練，1個進行測試，則可以得到K組結果，最終根據k組的結果進行統計，一般為5折或者10折。
(3) 自助法
數據集較小的時候，通過自身的bootstrapping方法，多次有放回的采樣增加樣本集合。

模型評估

通常我們定量一個模型的好壞，根據錯誤率和准確率來定量，但是在實際問題中，還有很多衡量的指標。

回歸

(1) 常用均方誤差來衡量MSE

\[E(f;D)= \frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2 \]

(2) 和方差 SSE

\[E(f;D) = \sum_{i=1}^{m}w_i(f(x_i)-y_i)^2 \]

(3) 均方根誤差RMSE

\[RMSE = \sqrt{MSE}= \sqrt{\frac{1}{m}\sum_{i=1}^{m}(f(x_i)-y_i)^2} \]

分類

(1) 錯誤率與准確率

\[E(f;D) = \frac{1}{m}\sum_{i=1}^{m} I(f(x_i) \neq y_i) \]

\[acc(f;D) = \frac{1}{m}\sum_{i=1}^{m} I(f(x_i) = y_i) = 1-E(f;D) \]

(2) 查准率(精確度)和查全率(召回率)

\[表2.1 分類結果混淆矩陣 \]

真實-預測	正樣本	負樣本
正樣本	TP	FN
負樣本	FP	TN

則，查准率與召回率公式如下

\[P = \frac{TP}{TP+FP} \]

\[R = \frac{TP}{TP+FN} \]

一般來說查全率高，召回率往往低，召回率高，查全率就偏低，因此，常用F1Score來衡量:

\[F1 = \frac{2*P*R}{P+R} \]

通常在做目標檢測與分類時，會設定不同的閾值，目標會根據閾值划分到不同的類別，因此通過對分數閾值排序，可以得到多組的PR值，從而可以畫出PR曲線，通常用y=x與PR曲線的交點來作為平衡點評估模型的好壞。
(3) ROC於AUC
在做識別任務中，通常產生一個分數值，通過與閾值的對比，從而判斷樣本屬於正例還是負例，而ROC曲線，則用以衡量真正例率與假正例率的比例.

\[TPR = \frac{TP}{TP+FN} \]

\[FPR = \frac{FP}{FP+TN} \]

通過設置不同的閾值，可以得到不同的TPR和FPR，從而做出ROC曲線
而AUC用來衡量ROC曲線與坐標軸的面積，面積越大，則代表模型越好，通常:

\[AUC = \frac{1}{2}\sum_{i=1}^{m}(x_{i+1}-x_i)*(y_{i+1}-y_i) \]

(4) FAR 與 FRR
FAR即(False Acceptance Rate),FRR即(False rejection Rate)，一般用來衡量二分類，例如人臉中，FAR代表不同的人識別為同一個人的概率，而FRR代表一個人識別為不同人的概率.如果300個人，每個人兩張圖片，則總共的比較次數為 \(C_{600}^{2}\),其中應當識別成為同一個人的有300對，應當識別為不同的人的有 \(C_{300}^{2}*C_{2}^{1}*C_{2}^{1}\),則通過計算300對中識別成不是一個人的個數與不同人識別為同一個人的概率來衡量模型的好壞。

本文作者：張峰
本文鏈接：http://www.enjoyai.site/2017/10/30
版權聲明：本博客所有文章，均采用CC BY-NC-SA 3.0 許可協議。轉載請注明出處！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 目標檢測 — 評價指標目標檢測之評價指標 - mAP 目標檢測評價指標目標檢測01：常用評價指標（AP、AP50、AP@50:5:95、mAP）衡量軟件性能三大常用指標及其相互關系衡量軟件測試質量的常用度量指標分類和目標檢測的性能評價指標目標檢測的各類評價指標是什么及其計算目標檢測評價指標(mAP) 目標檢測模型評價指標IoU、mAP