MOT中的Data Association(三):基於深度學習的端到端數據關聯


 
 
作者:黃飄
鏈接:https://zhuanlan.zhihu.com/p/111397247
來源:知乎


近幾年由於深度學習框架的興起,端到端的訓練和推理框架展現出一定的數據利用優勢,而傳統的數據關聯算法基本都不滿足可導可微的特性,因此出現了很多近似的端到端數據關聯框架。這里由於篇幅有限,如果專欄和github的反響還可以,后續我會考慮單獨開一個基於深度學習的數據關聯算法專題,現在我只簡要介紹幾類出現的框架。

我將近期出現的端到端數據關聯框架大致可分為:

  • 多特征輸入,輸出關聯矩陣

這類框架只完成了數據關聯的任務,即完成對多個目標的匹配,如PAMI2019中的DAN網絡結構:

這種框架就是典型的輸入歷史幀多條跟蹤軌跡的特征和當前幀多個特征序列,輸出多對多的關聯矩陣,這種方式是通過形式的擬合來近似數據關聯。又比如ICCV2019的FAMNet:

這個框架將SOT和數據關聯相集成。綜上,這些方法雖然從形式上近似了數據關聯算法,但是都要解決兩個問題,一個是所有跟蹤軌跡和觀測的匹配交互,一個是如何過濾虛警和誤檢。

  • 可微數據關聯模塊

這類框架就是講傳統不可微的數據關聯模塊改造成可微的模塊,比如DeepMOT:

這種方式基於匈牙利算法求解過程中的row-wise和colunm-wise操作,利用Bi-RNN完成全局的關聯記憶,最后將關聯矩陣通過連續的0~1的數據代替0-1匹配關系,從而實現可微。

  • 基於RNN的數據關聯預測

這種方式的特點在於,利用過去時間的跟蹤記憶,基於不同行人的空間分布進行位置關系預測,比如ICCV2017的AMIR算法:

不過這類算法嚴格來說不能划分為數據關聯類算法,這里我提出來肯定是有爭議的~

  • 基於圖卷積的數據關聯
    近幾年圖卷積網絡在視覺領域開始熱門起來,也有個別團隊采用了這種方式,即利用圖卷積網絡的消息傳遞機制,模擬離線數據關聯的網絡圖,這種方式的優點在於可以在線學習:

參考資料

[1] SUN S, AKHTAR N, SONG H, et al. Deep affinity network for multiple object tracking[J]. IEEE transactions on pattern analysis and machine intelligence, 2019.

[2] CHU P, LING H. Famnet: Joint learning of feature, affinity and multi-dimensional assignment for online multiple object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 6172-6181.

[3] XU Y, BAN Y, ALAMEDA-PINEDA X, et al. DeepMOT: A Differentiable Framework for Training Multiple Object Trackers[J]. arXiv preprint arXiv:1906.06618, 2019.

[4] BRASó G, LEAL-TAIXé L. Learning a Neural Solver for Multiple Object Tracking[J]. arXiv preprint arXiv:1912.07515, 2019.

[5] SADEGHIAN A, ALAHI A, SAVARESE S. Tracking the untrackable: Learning to track multiple cues with long-term dependencies[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2017. 300-311.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM