Learning to Track Any Object
2019-10-28 12:14:49
Paper: https://arxiv.org/abs/1910.11844
1. Background and Motivation:

在本文開始部分,作者就提到 object prior 對於跟蹤有非常重要的意義。特定類別物體的跟蹤是知道物體類別的,如行人跟蹤,車輛跟蹤等。但是,一般的跟蹤,比如用戶手動設置物體的跟蹤,就是 generic 的,並且很難知道這種先驗信息,即:model-free tracking。然而,generic objects 仍然共享一組 objectness traits。那么,我們如何將這種隱式的約束轉換為一種有用的先驗信息呢?
在這個工作中,作者稍微改動了 category-specific appearance models,使其變成了 category-agnostic tracking。本質上來說,我們表明 model-free tracking 在有了模型之后,變得非常簡單!想達到這種目標,需要處理如下兩個關鍵的問題,如圖 1 所示:
1). 如何將 category specific prior 改為 generic objectness prior?
2). 如何進一步的將這種 generic prior 改為 particular instance of interst?
為了處理問題 1,作者構建了一個聯合模型進行特定類別的物體檢測和與類別無關的跟蹤(build a joint model for category-specific object detection and category-agnostic tracking)。該方法是基於 Mask R-CNN 物體檢測框架。對於跟蹤,其將額外的 object template 作為輸入,計算其 feature embedding。然后該模板被用於計算 the object of intersting 和 new frame。該相似性圖又被用於重新加權空間特征,以檢測感興趣的物體。更重要的是,聯合的在圖像和視頻數據集上進行訓練,允許我們從多樣化的圖像數據,捕獲 generic object appearance model。然后學習將其用於與類別無關的跟蹤。

為了處理問題 2,本文計算一個線性分類器(the object of interest and other objects in the first frame)。
本文的創新可以總結為如下三點:
1). we incorporate an objectness prior in a generic tracker with a joint model for object detection, tracking, instance and video object segmentation;
2). we propose a lightweight strategy for computing discriminative object templates in an end-to-end fashion for efficiently handling distractors;
3). our method demonstrates state-of-the-art results on three benchmark datasets for object tracking and video object segmentation.
2. The Proposed Tracker :
2.1 Preliminaries:
本小節主要是講解了如何將 Mask R-CNN 物體檢測器,改裝為 tracker 的過程;
2.2 Tracking as generalized object detection:
2.3 Joint Detection and Tracking:
2.4 Discriminative Templates:
該小節主要是想學一種 robust feature,並且舉了一個例子。如下圖所示,作者發現原本的 feature map,在有些視頻上區分性不足,左下角是常規的響應圖,可以發現很差勁,可能導致跟蹤失敗;而作者提出方法得到的 feature map,則要好很多,如右下角的 feature map。
回顧 FPN 中每一個位置的 feature vector 編碼了在那個位置上的物體(a feature vector at each location encodes an object centered at that region at the corresponding scale)。所以,采樣出一個足夠大的特征池,可以提供給我們訓練集,來學習一個線性分類器。此外,這種判別器可以有效地通過最小二乘方法得到閉合解(a closed form via least squares)。特別的,給定一個 template T,以及一組 negative N,我們定義 data matrix A,及其 label vector y,如下所示:

然后,我們想要找到一個 vector Td,稱為 discriminative template,可以最小化:
然后我們可以得到閉合解:
其中,I 是單位矩陣,$\lambda$ 是正則化超參數。我們然后利用 Td 來計算相似性圖:
3. Experiments:


==
