TransTrack: Multiple-Object Tracking with Transformer
2021-01-05 09:47:31
Paper: https://arxiv.org/pdf/2012.15460.pdf
Code: https://github.com/PeizeSun/TransTrack
1. Background and Motivation:
一般 MOT 都是基於 object detection 和 reid 一起來做,但是這種跟蹤方式導致跟蹤算法復雜,低效。受到 SOT 領域中 Siamese network 的啟發,作者提出能夠遷移該 key-query 的方式到 MOT 問題上呢?但是直接遷移存在的問題是:無法很好地處理新出現的物體。因此,object detection module 是必須要引入的。所以,作者基於 transformer 模型,提出一種連接物體檢測與跟蹤的 MOT 方法。算法框架如下所示:
2. Approach:
具體的 transformer 結構如上圖所示。可以看到作者首先利用 resnet-50 提取輸入圖像的特征,得到連續兩幀的 feature map,然后輸入到一個 encoder 模塊中,該模塊是由 多個 self-attention 加 feed forward layer 構成的。輸出的特征會同時輸送到兩個並行的 decoder 模塊中。這兩個 decoder 模塊分別用於編碼 object feature query 和 learned object query,然后會輸出對應的 object feature,以得到 tracking box 和 detection box。然后 利用 IoU matching 的方式,得到最終的跟蹤結果。