MOT 綜述-Multiple Object Tracking: A Literature Review


ref:https://leijiezhang001.github.io/MOT-%E7%BB%BC%E8%BF%B0-Multiple-Object-Tracking-A-Literature-Review/

這篇文章比較廣義,不是針對3D tracking的,知識互通,可以學習一下。

本文的主要貢獻點如下四條:1)多目標跟蹤系統的關鍵方向,包括公式(formulation),分類(categorization),關鍵原則(key principles),以及測評(evaluation);2)根據現有技術所屬的不同方向來進行討論,再將每個方向的方法划分為成組,然后對組內方法的原則、優缺點進行討論;3)檢驗現有公開的實驗並且總結在主流數據集上的實驗結果,再進行量化地對比,與此同時指出分析中發現的幾個有趣的問題;4)提供在MOT研究中會遇到的問題的討論,以及可能在以后的工作中會出現的潛在可研究方向。

MOT作為一個中層任務,是一些高層任務的基礎,比如行人的pose estimation,action recognition,behavior analysis,車輛的state estimation。

SOT(單目標跟蹤)主要關注appearance model以及motion model的設計,解決尺度、旋轉、光照等影響因素。而MOT包含兩個任務:目標數量以及目標ID,這就要求MOT還需要解決其他問題:

frequent occlusions;

initialization and termination of tracks;

similar appearance;

interactions among multiple objucts;

1 問題描述

 

 

 2 分類方法

    • initialization method
      初始化方式分為:
       ∘ Detection-Based Tracking,優勢明顯,除了只能處理特定的目標類型;
       ∘ Detection-Free Tracking,能處理任何目標類型;
    • processing mode
      根據是否使用未來的觀測,處理方式可分為:
       ∘ online tracking,適合在線任務,缺點是觀測量會比較少;
       ∘ offline tracking,輸出結果存在時延,理論上能獲得全局最優解;
    • type of output
      根據問題求解方式輸出是否存在隨機性:
       ∘ probabilistic inference,概率性推斷;
       ∘ deterministic inference,求解最大后驗概率;

      自動駕駛等在線任務主要關注 Detection-Based,online tracking。

3 框架

MOT主要考慮兩個問題:

目標在不同幀之間的相似度量,即對appearance,motion,interaction,exclusion,occlusion的建模。

恢復出目標的ID,即inference過程;

3.1 Visual Representation

3.1.1. Visual Representation

  視覺表達即目標的特征表示方式:

  1. local features
    本質上是點特征,點特征由 corner+descriptor(角點+描述子) 組成。KLT(good features to track)在 SOT 中應用廣泛,用它可以生成短軌跡,估計相機運動位姿,運動聚類等;Optical Flow也是一種局部特征,在數據關聯之前也可用於將檢測目標連接到短軌跡中去。
  2. region features
    在一個塊區域內提取特征,根據像素間作差的次數,可分為:
    • zero-order, color histogram & raw pixel template
    • first-order, HOG & level-set formulation(?)
    • up-to-second-order, Region covariance matrix
  3. others
    其它特征本質上也需要 local 或 region 的方式提取,只是原始信息並不是灰度或彩圖。如 depth,probabilistic occupancy map, gait feature.

  Local features,比如顏色特征,在計算上比較高效,但是對遮擋,旋轉比較敏感;Region features 里,HOG 對光照有一定的魯棒性,但是對遮擋及形變效果較差;Region covariance matrix 更加魯棒,但是需要更高的計算量;深度特征也比較有效,但是需要額外的獲取深度信息的代價。

 

 

 

 

3.3. Interaction Model

3.3.1. Social Force Models

  1. Individual Force
    • fidelity, 目標不會改變它的目的地方向;
    • constancy, 目標不會突然改變速度和方向;
  2. Group Force
    • attraction, 目標間應該盡量靠近;
    • repulsion, 目標間也得保留適當的距離;
    • coherence, 同一個 group 里面的目標速度應該差不多;

3.3.2. Crowd Motion Pattern Models

  當一個 group 比較密集的時候,單個目標的運動模型不太顯著了,這時候群體的運動模型更加有效,可以用一些方法來構建群體運動模型。

3.4. Exclusion Model

3.4.1. Detection-level

  同一幀兩個檢測量不能指向同一個目標。匹配 tracklets 時,可以將這一項作為懲罰項。不過目前的檢測技術都做了 NMS,基本可以消除這種情況。

3.4.2. Trajectory-level

  兩個軌跡不能非常靠近。對於 online tracking 來說,就是 tracking 結果的兩個量不能挨在一起,如果挨在一起,就說明有問題,比如遮擋,或跟丟。

3.5. Occlusion Handling

  • Part-to-whole, 將目標分成柵格來處理;
  • Hypothesize-and-test,
  • Buffer-and-recover, 在遮擋產生前,記錄一定量的觀測,遮擋后恢復;
  • Others

 

 

3.6.2. Deterministic Optimization

 確定性優化法需要至少一個時間窗口的觀測量,所以適合 offline tracking 任務。優化方法有:

  • Bipartite graph matching
  • Dynamic Programming
  • Min-cost max-flow network flow
  • Conditional random field
  • MWIS(Maximum-weight independent set)

4. 評價方法

  評價方法是非常重要的,一方面對算法系統進行調參優化,另一方面比較各個不同算法的優劣。評價方法 (evaluation) 包括評價指標 (metrics) 以及數據集 (datasets),多類別的數據集主要有:

評價指標可分為:

A. 檢測指標
 ◊ 准確性(Accuracy)

  • Recall & Precision
  • False Alarme per Frame(FAF) rate, from paper
  • False Positive Per Image(FPPI), from paper
  • MODA(Multiple Object Detection Accuracy), 包含了 false positive & miss dets. from paper

 ◊ 精確性(Precision)

  • MODP(Multiple Object Detection Precision), 衡量檢測框與真值框的位置對齊程度;from paper

B. 跟蹤指標
 ◊ 准確性(Accuracy)

  • ID switches(IDs), from paper
  • MOTA(Multiple Object Tracking Accuracy), 包含了FP,FN,mismatch;from paper

 ◊ 精確性(Precision)

  • MOTP(Multiple Object Tracking Precision), from paper
  • TDE(Tracking Distance Error), from paper
  • OSPA(optimal subpattern assignment), from paper

 ◊ 完整性(Completeness)

  • MT, the numbers of Mostly Tracked, from paper
  • PT, the numbers of Partly Tracked
  • ML, the numbers of Mostly Lost
  • FM, the numbers of Fragmentation

 ◊ 魯棒性(Robustness)

  • RS(Recover from Short-term occlusion), from paper
  • RL(Recover from Long-term occlusion)

 

 

5. 總結

5.1. 還存在的問題

  MOT 算法模塊較多,參數也較復雜,但是最依賴於檢測模塊的性能,所以算法間比較性能時,需要注意按模塊進行變量控制。

5.2. 未來研究方向

    • MOT with video adaptation,檢測模塊式預先訓練的,需要在線更新學習;
    • MOT under multiple camera∘ multiple views,不同視野相同場景信息的記錄, ∘ non-overlapping multi-camera,不同視野不同場景的 reidentification;
    • Multiple 3D object tracking,能更准確預測位置,大小,更有效處理遮擋;
    • MOT with scene understanding,擁擠場景,用場景理解來有效跟蹤;
    • MOT with deep learning
    • MOT with other cv tasks,和其他任務融合,比如目標分割等;


不要怕,不要悔

https://leijiezhang001.github.io/%E5%8D%A1%E5%B0%94%E6%9B%BC%E6%BB%A4%E6%B3%A2%E8%AF%A6%E8%A7%A3/

https://leijiezhang001.github.io/%E5%8D%A1%E5%B0%94%E6%9B%BC%E6%BB%A4%E6%B3%A2%E5%99%A8%E5%9C%A8%E4%B8%89%E7%BB%B4%E7%9B%AE%E6%A0%87%E7%8A%B6%E6%80%81%E4%BC%B0%E8%AE%A1%E4%B8%AD%E7%9A%84%E5%BA%94%E7%94%A8/

 

 




免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM