Tracking without bells and whistles


Tracking without bells and whistles

2019-08-07 20:46:12

Paperhttps://arxiv.org/pdf/1903.05625 

Codehttps://github.com/phil-bergmann/tracking_wo_bnw 

 

1. Background and Motivation:

本文提出一種很霸道的觀點:A detector is all you need for Multi-Object Tracking。我們知道 MOT 的常規思路都是要先檢測,在做數據連接(data association)。但是,作者發現,最近兩年,雖然有很多方法被提出,但是悲劇的是,在幾個公共的 MOT 數據集上,並沒有很明顯的提升(兩年才提升了2點多:multiple object tracking accuracy has only improved 2.4% in the last two years on the MOT16 MOTChallenge benchmark)。作者發現通過僅僅利用物體檢測算法,如 Faster rcnn,就可以達到 state of the art 的效果。這也引出了一個很有意思的問題:如果一個檢測器就可以很好地完成 MOT 的任務,那么,tracking algorithm 有什么用呢?這還是必要的嗎?我們先來看看作者提出的算法框架到底是怎么樣的。

 

2. A detector is all you need

有一些物體檢測算法中包含通過 regression 的方式進行 bounding box refinement 的模塊。作者提出使用這種 regressor 來進行 MOT。這種方式有如下兩種優勢:

1). 不需要任何關於 tracking 的訓練;

2). 在測試階段不進行任何復雜的優化,因為該算法是 online 的。

此外,本文的方法也可以達到 SOTA 的效果。

 

2.1 Object detector

這個貌似沒啥說的,就是用基於 Resnet-101 和 Feature Pyramid Networks 的方法在 MOT17Det pedestrian detection dataset 上進行預訓練。得到這種物體檢測器之后呢?一起來看 2.2 小節。

 

2.2 Trackor

MOT 的挑戰在於:提取給定的視頻幀中的多個物體的時間和空間上位置信息,即:軌跡。這種軌跡信息被定義為:一系列有序的物體包圍盒的集合。

在時刻 t=0,作者的 tracker 用第一組檢測的結果進行初始化,即:$D_0 = {d^1_0, d^2_0, ... } = B_0$。在圖 1 中,我們展示了兩個隨后的步驟:the bounding box regression and track initialization。

 

Bounding box regression.  

第一步就是,如上圖藍色箭頭所示,探索 bounding box regression 來拓展激活的軌跡。通過將 t-1 幀的 bounding box $b^k_{t-1}$ 進行回歸,得到第 t 幀 新的位置 $b^k_t$。在 Faster RCNN 中,這就對應了在當前幀的 feature map 上進行 RoI Pooling 操作,但是用的是前一幀的 BBox。作者提出這種做法的一個假設就是:兩幀之間的運動不是很明顯,特別是在 high frame rates 的視頻上。這個 identify 就自動的從之前的結果上遷移過來了,從而有效的得到了新的軌跡。這種操作可以對所有的視頻幀進行重復處理。

 

在 BBox 回歸以后,作者的跟蹤器考慮兩種情況來 kill 一個軌跡:

1). 一個物體在視頻幀中消失了,或者被其他物體被遮擋了,即:如果新的 classification score 小於某一閾值;

2). 不同物體之間的遮擋,可以通過采用 NMS 來處理。

 

Bounding Box Initialization.

為了處理新出現的物體,物體檢測器也提供了整個視頻幀的檢測結果 Dt。第二步,即圖中紅色箭頭部分,類似於第一幀的初始化。但是,從 Dt 開始的檢測,當且僅當 IoU 與任何已有的 active trajectories $b_t^k$ 小於某一閾值。即,我們考慮一個物體為新的 id,如果我們無法用任何已有的 trajectory 來描述該物體。

 

2.3 Tracking extensions

作者將該模型進行了拓展,即:結合了 motion model 和 re-identification model。

Motion model. 作者之前的假設:兩幀之間的變化不是很大,在有些情況下並不成立:large camera motion and low video frame rates. 在極端的情況下,BBox 從 frame t-1 在第 t 幀中可能根本不包含目標物體了。所以,作者設計了兩種 motion model 來改善 BBox 的定位。對於運動相機,作者采用 相機運動補償(camera motion compensation, CMC)的方式進行緩解。作者采用了 image registration 的方式來對齊視頻幀,用的是 Enhanced Correlation Coefficient (ECC) maximization。對於低幀率的視頻,作者采用 a constant velocity assumption (CVA)。這個也是別人提出的,不太了解,不知道有啥好處么?

 

Re-identification.  為了讓 tracker 能夠保持 online,作者提出利用 short-term re-ID 的方式(借助 Siamese Network 來進行 appearance feature 的匹配)來改善效果。為了達到這個目標,作者將殺死的目標,存儲固定幀數的樣本。然后將這些樣本和新檢測的目標在 embedding space 進行重識別。

 

3. Experiment

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM