ref:https://leijiezhang001.github.io/MOT-%E7%BB%BC%E8%BF%B0-Multiple-Object-Tracking-A-Literature-Review/
這篇文章比較廣義,不是針對3D tracking的,知識互通,可以學習一下。
本文的主要貢獻點如下四條:1)多目標跟蹤系統的關鍵方向,包括公式(formulation),分類(categorization),關鍵原則(key principles),以及測評(evaluation);2)根據現有技術所屬的不同方向來進行討論,再將每個方向的方法划分為成組,然后對組內方法的原則、優缺點進行討論;3)檢驗現有公開的實驗並且總結在主流數據集上的實驗結果,再進行量化地對比,與此同時指出分析中發現的幾個有趣的問題;4)提供在MOT研究中會遇到的問題的討論,以及可能在以后的工作中會出現的潛在可研究方向。
MOT作為一個中層任務,是一些高層任務的基礎,比如行人的pose estimation,action recognition,behavior analysis,車輛的state estimation。
SOT(單目標跟蹤)主要關注appearance model以及motion model的設計,解決尺度、旋轉、光照等影響因素。而MOT包含兩個任務:目標數量以及目標ID,這就要求MOT還需要解決其他問題:
frequent occlusions;
initialization and termination of tracks;
similar appearance;
interactions among multiple objucts;
1 問題描述
2 分類方法
- initialization method
初始化方式分為:
∘∘ Detection-Based Tracking,優勢明顯,除了只能處理特定的目標類型;
∘∘ Detection-Free Tracking,能處理任何目標類型; - processing mode
根據是否使用未來的觀測,處理方式可分為:
∘∘ online tracking,適合在線任務,缺點是觀測量會比較少;
∘∘ offline tracking,輸出結果存在時延,理論上能獲得全局最優解; -
type of output
根據問題求解方式輸出是否存在隨機性:
∘∘ probabilistic inference,概率性推斷;
∘∘ deterministic inference,求解最大后驗概率;自動駕駛等在線任務主要關注 Detection-Based,online tracking。
3 框架
MOT主要考慮兩個問題:
目標在不同幀之間的相似度量,即對appearance,motion,interaction,exclusion,occlusion的建模。
恢復出目標的ID,即inference過程;
3.1 Visual Representation
3.1.1. Visual Representation
視覺表達即目標的特征表示方式:
- local features
本質上是點特征,點特征由 corner+descriptor(角點+描述子) 組成。KLT(good features to track)在 SOT 中應用廣泛,用它可以生成短軌跡,估計相機運動位姿,運動聚類等;Optical Flow也是一種局部特征,在數據關聯之前也可用於將檢測目標連接到短軌跡中去。 - region features
在一個塊區域內提取特征,根據像素間作差的次數,可分為:- zero-order, color histogram & raw pixel template
- first-order, HOG & level-set formulation(?)
- up-to-second-order, Region covariance matrix
- others
其它特征本質上也需要 local 或 region 的方式提取,只是原始信息並不是灰度或彩圖。如 depth,probabilistic occupancy map, gait feature.
Local features,比如顏色特征,在計算上比較高效,但是對遮擋,旋轉比較敏感;Region features 里,HOG 對光照有一定的魯棒性,但是對遮擋及形變效果較差;Region covariance matrix 更加魯棒,但是需要更高的計算量;深度特征也比較有效,但是需要額外的獲取深度信息的代價。
3.3. Interaction Model
3.3.1. Social Force Models
- Individual Force
- fidelity, 目標不會改變它的目的地方向;
- constancy, 目標不會突然改變速度和方向;
- Group Force
- attraction, 目標間應該盡量靠近;
- repulsion, 目標間也得保留適當的距離;
- coherence, 同一個 group 里面的目標速度應該差不多;
3.3.2. Crowd Motion Pattern Models
當一個 group 比較密集的時候,單個目標的運動模型不太顯著了,這時候群體的運動模型更加有效,可以用一些方法來構建群體運動模型。
3.4. Exclusion Model
3.4.1. Detection-level
同一幀兩個檢測量不能指向同一個目標。匹配 tracklets 時,可以將這一項作為懲罰項。不過目前的檢測技術都做了 NMS,基本可以消除這種情況。
3.4.2. Trajectory-level
兩個軌跡不能非常靠近。對於 online tracking 來說,就是 tracking 結果的兩個量不能挨在一起,如果挨在一起,就說明有問題,比如遮擋,或跟丟。
3.5. Occlusion Handling
- Part-to-whole, 將目標分成柵格來處理;
- Hypothesize-and-test,
- Buffer-and-recover, 在遮擋產生前,記錄一定量的觀測,遮擋后恢復;
- Others
3.6.2. Deterministic Optimization
確定性優化法需要至少一個時間窗口的觀測量,所以適合 offline tracking 任務。優化方法有:
- Bipartite graph matching
- Dynamic Programming
- Min-cost max-flow network flow
- Conditional random field
- MWIS(Maximum-weight independent set)
4. 評價方法
評價方法是非常重要的,一方面對算法系統進行調參優化,另一方面比較各個不同算法的優劣。評價方法 (evaluation) 包括評價指標 (metrics) 以及數據集 (datasets),多類別的數據集主要有:
評價指標可分為:
A. 檢測指標
◊◊ 准確性(Accuracy)
- Recall & Precision
- False Alarme per Frame(FAF) rate, from paper
- False Positive Per Image(FPPI), from paper
- MODA(Multiple Object Detection Accuracy), 包含了 false positive & miss dets. from paper
◊◊ 精確性(Precision)
- MODP(Multiple Object Detection Precision), 衡量檢測框與真值框的位置對齊程度;from paper
B. 跟蹤指標
◊◊ 准確性(Accuracy)
◊◊ 精確性(Precision)
- MOTP(Multiple Object Tracking Precision), from paper
- TDE(Tracking Distance Error), from paper
- OSPA(optimal subpattern assignment), from paper
◊◊ 完整性(Completeness)
- MT, the numbers of Mostly Tracked, from paper
- PT, the numbers of Partly Tracked
- ML, the numbers of Mostly Lost
- FM, the numbers of Fragmentation
◊◊ 魯棒性(Robustness)
- RS(Recover from Short-term occlusion), from paper
- RL(Recover from Long-term occlusion)
5. 總結
5.1. 還存在的問題
MOT 算法模塊較多,參數也較復雜,但是最依賴於檢測模塊的性能,所以算法間比較性能時,需要注意按模塊進行變量控制。
5.2. 未來研究方向
- MOT with video adaptation,檢測模塊式預先訓練的,需要在線更新學習;
- MOT under multiple camera: ∘∘ multiple views,不同視野相同場景信息的記錄, ∘∘ non-overlapping multi-camera,不同視野不同場景的 reidentification;
- Multiple 3D object tracking,能更准確預測位置,大小,更有效處理遮擋;
- MOT with scene understanding,擁擠場景,用場景理解來有效跟蹤;
- MOT with deep learning
- MOT with other cv tasks,和其他任務融合,比如目標分割等;
不要怕,不要悔
https://leijiezhang001.github.io/%E5%8D%A1%E5%B0%94%E6%9B%BC%E6%BB%A4%E6%B3%A2%E8%AF%A6%E8%A7%A3/
https://leijiezhang001.github.io/%E5%8D%A1%E5%B0%94%E6%9B%BC%E6%BB%A4%E6%B3%A2%E5%99%A8%E5%9C%A8%E4%B8%89%E7%BB%B4%E7%9B%AE%E6%A0%87%E7%8A%B6%E6%80%81%E4%BC%B0%E8%AE%A1%E4%B8%AD%E7%9A%84%E5%BA%94%E7%94%A8/