https://www.cnblogs.com/P3nguin/p/10570053.html
Precision plot: percentages of frames whose estimated locations lie in a given threshold distance to ground-truth centers.
追蹤算法估計的目標位置(bounding box)的中心點與人工標注(ground-truth)的目標的中心點,這兩者的距離小於給定閾值的視頻幀的百分比。不同的閾值,得到的百分比不一樣,因此可以獲得一條曲線。一般閾值設定為20個像素點。
該評估方法的缺點:無法反映目標物體大小與尺度的變化。
比如一個視頻有101幀,追蹤算法預測的bounding box中心點與ground-truth中心點距離小於20像素有60幀,其余40幀兩者距離均大於20個像素,則當閾值為20像素時,精度為0.6。
Success Plot: Let rt denote the area of tracked bounding box and ra denote the ground truth. An Overlap Score (OS) can be defined by S = |rt∩ra| |rt∪ra| where ∩ and ∩ are the intersection and union of two regions, and |·| counts the number of pixels in the corresponding area. Afterwards, a frame whose OS is larger than a threshold is termed as a successful frame, and the ratios of successful frames at the thresholds ranged from 0 to 1 are plotted in success plots.
首先定義重合率得分(overlap score,OS),追蹤算法得到的bounding box(記為a),與ground-truth給的box(記為b),重合率定義為:OS = |a∩b|/|a∪b|,|·|表示區域的像素數目。當某一幀的OS大於設定的閾值時,則該幀被視為成功的(Success),總的成功的幀占所有幀的百分比即為成功率(Success rate)。OS的取值范圍為0~1,因此可以繪制出一條曲線。一般閾值設定為0.5。
以上兩種常見的評估方式一般都是用ground-truth中目標的位置初始化第一幀,然后運行跟蹤算法得到平均精度和成功率。這種方法被稱為one-pass evaluation (OPE)。這種方法有2個缺點。一是一個跟蹤算法可能對第一幀給定的初始位置比較敏感,在不同位置或者幀初始會造成比較大的影響。二是大多數算法遇到跟蹤失敗后沒有重新初始化的機制。
針對上述兩個問題,又提出以下幾種評估方法。
魯棒性評估
通過從時間(temporally,從不同幀起始)和空間(spatially,不同的bounding box)上打亂,然后進行評估。可以分為:temporal robustness evaluation (TRE) 和 spatial robustness evaluation (SRE)。
Temporal robustness evaluation: Each tracking algorithm is evaluated numerous times from different starting frames across an image sequence. In each test, an algorithm is evaluated from a particular starting frame, with the initialization of the corresponding ground-truth object state, until the end of an image sequence. The tracking results of all the tests are averaged to generate the TRE score.
在一個圖片/視頻序列中,每個跟蹤算法從不同的幀作為起始進行追蹤(比如分別從第一幀開始進行跟蹤,從第十幀開始進行跟蹤,從第二十幀開始進行跟蹤等),初始化采用的bounding box即為對應幀標注的ground-truth。最后對這些結果取平均值,得到TRE score。
Spatial robustness evaluation: To evaluate whether a tracking method is sensitive to initialization errors, we generate the object states by slightly shifting or scaling the ground-truth bounding box of a target object. In this work, we use eight spatial shifts (four center shifts and four corner shifts), and four scale variations (see Fig. 2). The amount for shift is 10 percent of the target size, and the scale ratio varies from 80 to 120 percent of the ground truth at the increment of 10 percent. The SRE score is the average of these 12 evaluations.
由於有些算法對初始化時給定的bounding box比較敏感,而目前測評用的ground-truth都是人工標注的,因此可能會對某些跟蹤算法產生影響。因此為了評估這些跟蹤算法是否對初始化敏感,作者通過將ground-truth輕微的平移和尺度的擴大與縮小來產生bounding box。平移的大小為目標物體大小的10%,尺度變化范圍為ground-truth的80%到120%,每10%依次增加。最后取這些結果的平均值作為SRE score。
https://www.pianshen.com/article/40111762784/
目標識別的評價指標主要有ROC曲線,missrate(MR,其實就是FALSE Positive)、FPPI、FPPW等。單圖像跟蹤的評價指標主要有兩個,一個是pixel error,一般是算中心距離,另一個是overlap rate,區域重疊率,用重疊區域除以兩個矩形所占的總面積Aoverlap /(A1+A2-Aoverlap),常常用pixel error繪制幀誤差曲線,用重疊率繪制誤差曲線。除此之外,還有針對多目標圖像跟蹤的評價指標。在VOT中,目標跟蹤的評價指標又多了EOA和EOF圖,這篇博客都會介紹。
OTB
Online Object Tracking Benckmark,其中主要使用兩類評價指標,一類是平均像素誤差Average Pixel Error(APE),二類是平均重疊率Average Overlap Rate(AOR)
平均像素誤差
顧名思義,平均像素誤差就是根據預測目標中心位置與真實位置的像素距離作為誤差值,該值越大,說明誤差越大。最終結果區幀平均。
平均重疊率
下面這張圖應該可以說明問題,平均重疊率O是以面積來衡量的
O=At⋂AgtAt⋃Agt
時間魯棒性
像素誤差和重疊率都可以做成成功率圖(Success Plot)—— Precision plot、Success Plot,這個大家在Paper里都已經見過了,還有一種成功率圖,就是魯棒性成功率圖,又分為時間魯棒性(TRE)和空間魯棒性(SRE),不測試魯棒性,那么就叫做一遍成功率(OPE)
OTB對時間魯棒性的測試是通過將視頻序列在時間軸上平均找出20個點作為起點,終點還是原來的最后一幀,這樣通過對20段視頻序列運行算法,繪制平均的重疊率圖或者像素誤差圖,這樣就完成了時間魯棒性的測試。
空間魯棒性
與時間魯棒性一樣,一段視頻在第一幀,以真實位置稍作偏移,就是說測試初始化位置有偏差的目標序列。這樣測試十二段(八個方向,四個尺度),具體方法參照OTB-2013的Paper。這樣十二段序列的評價成功率曲線,就是魯棒性的曲線。
VOT
VOT自2013年發展到現在,評價體系比較成熟,也越來越受歡迎。其中主要有EAO指標和EFO指標
EAO指標
EAO是Expect Average Overlaprate的縮寫
顧名思義的,精度的衡量方式是平均重疊率
魯棒性使用跟蹤算法跟丟目標的次數來衡量
通過一種方式,在一張圖中同時反映精度和魯棒性,這就是EAO圖
EFO指標
Equivalent Filter Operations
EFO是用來衡量速度的指標,以往我們談速度,都需要談硬件,再說fps,但是通過EFO指標可以減少硬件差異帶來的影響。
首先測試該機器在600×600圖像上,對每個像素進行30×30濾波的時間。
然后將跟蹤算法耗時除以該機器上進行以上濾波操作的時間,這樣得到的值就是EFO值,最大程度的減少了硬件的影響。