Spatial-Temporal Relation Networks for Multi-Object Tracking


Spatial-Temporal Relation Networks for Multi-Object Tracking

2019-05-21 11:07:49

Paperhttps://arxiv.org/pdf/1904.11489.pdf 

 

1. Background and Motivation

多目標跟蹤的目標是:定位物體並且在視頻中仍然可以保持他們的身份。該任務已經應用於多種場景,如視頻監控,體育游戲分析,自動駕駛等等。大部分的方法都依賴於 “tracking-by-detection” 的流程,即:首先在每一幀進行物體檢測,然后在后續的視頻中將其連接起來。這種分解的流程,極大地降低了總體的復雜度,然后將主要問題變成了更加純粹的問題:object association。這種思路主要受益於物體檢測領域的快速發展,並且在多個 MOT 的 benchmark 上取得了頂尖的檢測效果。

 

總體來說,這種通過聯系物體(Object Association)的方法很大程度上依賴於魯棒的相似性得分。這種相似性得分在大部分現有的方法中,都僅依賴於摳出來物體的表觀特征(appearance feature)。這種相似性度量方法的結果是非常受限的:1). 所要跟蹤的物體,在跟蹤場景中,通常僅僅是一類,即:“Human”,通常非常難以區分;2). 跨越不同幀的物體,通常也受到遮擋,圖像質量,姿態變化的影響,從而進一步增加了其魯棒得分的難度。

 

探索不同信息的前人工作也都在嘗試如何有效的構建相似性得分。CNN 被很好的研究並且用於編碼外觀信息,手工設計的位置信息也被結合到 appearance cue。Bound Box 之間的拓撲結構對於判斷是否給定的 BBox 對表示同一個物體,特別對於遮擋的場景來說。如圖 1 所示,第一幀 和 第 t-k 幀中的橘色 BBox 和 第 t 幀的藍色 BBox 表示同一個行人。雖然 第 t 幀的行人被另一個行人遮擋了,並且其外觀仍然對於前面的視頻幀來說,有較大的不同,但是其拓撲結構仍然是一致的,使得觀測到的行人身份仍然是可識別的。此外,跨幀的信息融合,也被證明對於衡量相似度來說是有用的。

但是這些信息都是異構的表達,如何將這些信息進行整合,融合到一個框架中,現有的工作要么依賴於 cue-specific mechanism,要么需要頂尖的學習方法。本文的工作則是受到 natural language 和 CV 中關系網絡成功應用的啟發。在關系網絡中,每一個元素通過一個 content-aware aggregation weight 從其他元素來進行特征聚合,可以自動根據任務的目標實現自動學習,而不需要顯示的監督信息。由於不需要過多關於數據格式的假設,關系網絡被廣泛的應用於建模 distant, non-grid 或者 differently distributed data 之間的關系,例如 word-word, pixel-pixel and object-object 之間的關系。這些數據格式的很難用常規的卷積和循環網絡建模。

 

該文章中,我們提出了一個聯合的框架,通過將多種線索以一種端到端的方式進行相似性度量,從空間領域到時空領域拓展 object-object relation。有了這種關系網絡的拓展,我們可以很好的編碼 objects 和 tracklets 的外觀和拓撲結構。同時也可以適應基於 location 的位置信息。

 

時空關系網絡受限被應用到每一幀來加強空間上物體的外觀表達。然后,在其參考的 tracklet 上的增強特征隨着時間,通過采用我們的關系網絡進行聚合。最終,在 tracklet 上聚合的特征,增強的目標特征被組合起來,以豐富 tracklet-object pair 的表達,並從而產生一個相似性得分。作者發現,tracklet-object pair 合適的特征表達也是相似性度量的關鍵所在。本文的算法被稱為:spatial-temporal relation networks (STRN), 可以進行端到端的訓練,並且在多個 MOT benchmark 上取得了頂尖的效果。

2. The Proposed Method

MOT 問題的定義:本文的算法示意圖如圖 2 所示。輸入是 video,然后進行物體檢測,得到行人的檢測結果,即:BBox。然后在每一幀中,都進行前面一些幀得到的 tracklets 和 當前幀的檢測結果 proposal 的匹配。那么,很自然的一個問題就是:如何很好的衡量這些 tracklets 和 proposals 之間的相似度度量問題?如果可以很好的度量其相似度,就可以很好的將其串起來,形成每一個目標物體的軌跡,從而完成多目標跟蹤。將第 t-1 幀之前的第 i 個之前的 tracklet 記為:$T^{t-1}_i = \{b_i^1, b_i^2, ... , b_i^{t-1}\}$,當前幀 t 中檢測到的物體記為:$D_t = \{b_j^t\}_{j=1}^{N_t}$。每一個 pair $(T^{t-1}_i, b_j^t)$ 被賦予一個相似性得分 $s_{ij}^t$。

 

 

本文算法總覽:這篇文章就是通過時空關系網絡,將上述提到的 appearance,location,topology cues,and aggregating informaton over time 都用於計算相似性得分。圖 3 展示了相似性計算的整個過程。首先,首先用基礎的深度網絡,ResNet-50 來提取 appearance feature;然后,跨越時空的表觀特征通過 Spatial-temproal relation module (STRM) 來進行推理,得到了空間增強的表達和時間增強的表達。雖然這兩個增強后的特征,我們進一步的得到兩種特征,通過將其進行組合,然后分別計算其余弦相似度。最終,我們組合 the relation feature 和 unary location feature, motion feature 作為tracklet-object pair 的表達。對應的,該相似性得分是由兩層網絡和sigmoid 函數得到的。

 

緊接着,作者對該流程中的主要模塊進行詳細的介紹,主要包括:Spatial-temporal relation module (STRM), the design of the feature presentation for a tacklet-object pair。

 

2.1 The Spatial-Temporal Relation Module

作者首先對基礎的靜態物體關系模型,由  MSRA組提出的 Relation network for object detection,用於編碼 context information 來進行物體檢測的。

 

Object relation module (ORM) :

基礎物體關系模型的目標是:通過在一張靜態圖像上的其他物體進行信息的聚合,來增強輸入的表觀特征。

物體關系模塊可以計算一個優化的物體特征,通過從一個物體集合O 中進行信息聚合:

 

其中,$w_{ij}$ 是從物體 $o_j$ 到 $o_i$ 計算得到的 attention weight;$W_v$ 是輸入特征的轉換矩陣。而 Attention weight $w_{ij}$ 可以在考慮到投影后的表觀相似性 $w_{ij}^A$,以及幾何關系模型 $w_{ij}^G$之后得到:

 

其中,$w_{ij}^A$ 表示 the scaled dot product of projected appearance feature, 公式化表達為:

 

$w_{ij}^G$ 是通過相對位置 ,用一個小網絡得到的。原始的物體關系模型僅僅在空間領域進行推理。為了更好發揮其在 MOT 中的優勢,我們將該模型拓展到 temporal domain。

 

Extension to the Sptial-Temporal Domain

該物體關系模型可以直觀的進行拓展,即:將上一幀的物體信息也考慮到 object set O 中。這種方法很明顯是 sub-optimal:

1). 由於有更多的物體涉及到推理過程中,復雜度明顯變大了;

2). 時間和空間的關系被無差別的進行處理了。

但是,作者認為時間和空間關系對信息的編碼,應該是有不同貢獻的。The spatial relation 可以從建模不同物體之間的拓撲關系得到優勢;The temporal relation 適合用於從多幀上聚合特征,從而可以避免低質量的 BBox 帶來的干擾。

 

考慮到時空關系的不同效果,我們提出一種新的時空關系模型,如圖1所示。首先在每一幀進行 spatial domain 的推理,該空間推理過程,利用自動學習的拓撲信息,加強了輸入的表觀特征。然后通過空間關系推理,將增強后的特征在多幀上進行信息聚合。

 

這兩種關系服從不同的形式。空間關系推理過程嚴格的服從 Eq. 1, 來編碼拓撲信息,結果輸出特征記為: 。圖 4 展示了不同幀之間空間注意力權重的學習過程。總的來說,在不同幀上的注意力權重是穩定的,說明捕獲了拓撲表達。

 

時間關系的推理過程是在空間關系推理之后進行的。由於硬件設備的限制,作者考慮了過去 T1 幀的信息聚合(默認設置為 10):

 

在每個輸入特征上定義的 attention weight,記為:

 

公式 4 其實是最近視頻幀的物體特征的加權平均。學習到的時間注意力權重如圖 5 所示。可以發現,模糊的,錯誤或者部分遮擋的物體被賦予較小的權重,表明可以自動學習到特征的質量,所以,可以很好的降低這些低質量的檢測結果對 tracklet 的表達。

 

2.2 Design of Feature Representation 

在上面講完關系模型的構建之后,作者接下來開始着重講解如何學習很好的特征表達。因為特征表達直接和最終性能相掛鈎。作者采用兩層網絡,來實現 tracklet 和 objects 之間相似性的度量:

 

其中,黃色區域的幾個元素分別代表:relation feature, consine similarity, location features and motion features。

 

2.2.1 Relation Features

 

作者對輸入的關系特征進行 linear transform,作為 base feature type:

 

其中,$W_R$ 是用於 feature fusion 的線性轉換。

 

直接利用組合后的關系特征可以計算不同 modes 的相似性。但是,the freedom in representation is double-edged 也增加了學習各自特征的復雜度。為了解決該問題,作者提出顯示的計算兩個關系特征的余弦距離:

 

其中,$W_C$ 是一個 linear layer 將原始的關系特征,投影到低維度的表達,即128-D。具體的各種特征計算方法,如下圖 6 所示:

 

 

2.2.2 Location Features 

位置/運動特征 (Location/motion feature) 是另一種廣泛應用於計算相似性得分的線索。我們將位置/運動特征從 tracklet 的最后一幀,來表示整個的,因為遠距離幀的位置/運動模型可能導致當前幀的漂移。位置特征可以結合到作者提出的 pipeline 中。將 bare location features 首先進行 embedding,投射到高維度的空間,然后將其與 relation feature 進行組合,來產生最終的相似性得分。進行映射和投影的方法如下:

 

其中,* 是 {L, M} 之一。第一種是包圍盒歸一化后的絕對位置 (the normalized absolute location of bounding box): 

 

The other location feature depit the motion information of an object in consecutive frames: 

 

 

3. Experiments

作者在多個 MOT 的 benchmark 上進行了實驗,結果如下:

 

 

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM