Spatial-Temporal Relation Networks for Multi-Object Tracking

本文轉載自查看原文 2019-05-21 11:09 1104 論文閱讀/ 目標檢測與跟蹤/ Multi-Object-Tracking

Spatial-Temporal Relation Networks for Multi-Object Tracking

2019-05-21 11:07:49

Paper: https://arxiv.org/pdf/1904.11489.pdf

1. Background and Motivation:

多目標跟蹤的目標是：定位物體並且在視頻中仍然可以保持他們的身份。該任務已經應用於多種場景，如視頻監控，體育游戲分析，自動駕駛等等。大部分的方法都依賴於 “tracking-by-detection” 的流程，即：首先在每一幀進行物體檢測，然后在后續的視頻中將其連接起來。這種分解的流程，極大地降低了總體的復雜度，然后將主要問題變成了更加純粹的問題：object association。這種思路主要受益於物體檢測領域的快速發展，並且在多個 MOT 的 benchmark 上取得了頂尖的檢測效果。

總體來說，這種通過聯系物體（Object Association）的方法很大程度上依賴於魯棒的相似性得分。這種相似性得分在大部分現有的方法中，都僅依賴於摳出來物體的表觀特征（appearance feature）。這種相似性度量方法的結果是非常受限的：1). 所要跟蹤的物體，在跟蹤場景中，通常僅僅是一類，即：“Human”，通常非常難以區分；2). 跨越不同幀的物體，通常也受到遮擋，圖像質量，姿態變化的影響，從而進一步增加了其魯棒得分的難度。

探索不同信息的前人工作也都在嘗試如何有效的構建相似性得分。CNN 被很好的研究並且用於編碼外觀信息，手工設計的位置信息也被結合到 appearance cue。Bound Box 之間的拓撲結構對於判斷是否給定的 BBox 對表示同一個物體，特別對於遮擋的場景來說。如圖 1 所示，第一幀和第 t-k 幀中的橘色 BBox 和第 t 幀的藍色 BBox 表示同一個行人。雖然第 t 幀的行人被另一個行人遮擋了，並且其外觀仍然對於前面的視頻幀來說，有較大的不同，但是其拓撲結構仍然是一致的，使得觀測到的行人身份仍然是可識別的。此外，跨幀的信息融合，也被證明對於衡量相似度來說是有用的。

但是這些信息都是異構的表達，如何將這些信息進行整合，融合到一個框架中，現有的工作要么依賴於 cue-specific mechanism，要么需要頂尖的學習方法。本文的工作則是受到 natural language 和 CV 中關系網絡成功應用的啟發。在關系網絡中，每一個元素通過一個 content-aware aggregation weight 從其他元素來進行特征聚合，可以自動根據任務的目標實現自動學習，而不需要顯示的監督信息。由於不需要過多關於數據格式的假設，關系網絡被廣泛的應用於建模 distant, non-grid 或者 differently distributed data 之間的關系，例如 word-word, pixel-pixel and object-object 之間的關系。這些數據格式的很難用常規的卷積和循環網絡建模。

該文章中，我們提出了一個聯合的框架，通過將多種線索以一種端到端的方式進行相似性度量，從空間領域到時空領域拓展 object-object relation。有了這種關系網絡的拓展，我們可以很好的編碼 objects 和 tracklets 的外觀和拓撲結構。同時也可以適應基於 location 的位置信息。

時空關系網絡受限被應用到每一幀來加強空間上物體的外觀表達。然后，在其參考的 tracklet 上的增強特征隨着時間，通過采用我們的關系網絡進行聚合。最終，在 tracklet 上聚合的特征，增強的目標特征被組合起來，以豐富 tracklet-object pair 的表達，並從而產生一個相似性得分。作者發現，tracklet-object pair 合適的特征表達也是相似性度量的關鍵所在。本文的算法被稱為：spatial-temporal relation networks (STRN), 可以進行端到端的訓練，並且在多個 MOT benchmark 上取得了頂尖的效果。

2. The Proposed Method:

MOT 問題的定義：本文的算法示意圖如圖 2 所示。輸入是 video，然后進行物體檢測，得到行人的檢測結果，即：BBox。然后在每一幀中，都進行前面一些幀得到的 tracklets 和當前幀的檢測結果 proposal 的匹配。那么，很自然的一個問題就是：如何很好的衡量這些 tracklets 和 proposals 之間的相似度度量問題？如果可以很好的度量其相似度，就可以很好的將其串起來，形成每一個目標物體的軌跡，從而完成多目標跟蹤。將第 t-1 幀之前的第 i 個之前的 tracklet 記為：$T^{t-1}_i = \{b_i^1, b_i^2, ... , b_i^{t-1}\}$，當前幀 t 中檢測到的物體記為：$D_t = \{b_j^t\}_{j=1}^{N_t}$。每一個 pair $(T^{t-1}_i, b_j^t)$ 被賦予一個相似性得分 $s_{ij}^t$。

本文算法總覽：這篇文章就是通過時空關系網絡，將上述提到的 appearance，location，topology cues，and aggregating informaton over time 都用於計算相似性得分。圖 3 展示了相似性計算的整個過程。首先，首先用基礎的深度網絡，ResNet-50 來提取 appearance feature；然后，跨越時空的表觀特征通過 Spatial-temproal relation module (STRM) 來進行推理，得到了空間增強的表達和時間增強的表達。雖然這兩個增強后的特征，我們進一步的得到兩種特征，通過將其進行組合，然后分別計算其余弦相似度。最終，我們組合 the relation feature 和 unary location feature, motion feature 作為tracklet-object pair 的表達。對應的，該相似性得分是由兩層網絡和sigmoid 函數得到的。

緊接着，作者對該流程中的主要模塊進行詳細的介紹，主要包括：Spatial-temporal relation module (STRM), the design of the feature presentation for a tacklet-object pair。

2.1 The Spatial-Temporal Relation Module:

作者首先對基礎的靜態物體關系模型，由 MSRA組提出的 Relation network for object detection，用於編碼 context information 來進行物體檢測的。

Object relation module (ORM) :

基礎物體關系模型的目標是：通過在一張靜態圖像上的其他物體進行信息的聚合，來增強輸入的表觀特征。

物體關系模塊可以計算一個優化的物體特征，通過從一個物體集合O 中進行信息聚合：

其中，$w_{ij}$ 是從物體 $o_j$ 到 $o_i$ 計算得到的 attention weight；$W_v$ 是輸入特征的轉換矩陣。而 Attention weight $w_{ij}$ 可以在考慮到投影后的表觀相似性 $w_{ij}^A$，以及幾何關系模型 $w_{ij}^G$之后得到：

其中，$w_{ij}^A$ 表示 the scaled dot product of projected appearance feature, 公式化表達為：

$w_{ij}^G$ 是通過相對位置，用一個小網絡得到的。原始的物體關系模型僅僅在空間領域進行推理。為了更好發揮其在 MOT 中的優勢，我們將該模型拓展到 temporal domain。

Extension to the Sptial-Temporal Domain:

該物體關系模型可以直觀的進行拓展，即：將上一幀的物體信息也考慮到 object set O 中。這種方法很明顯是 sub-optimal：

1). 由於有更多的物體涉及到推理過程中，復雜度明顯變大了；

2). 時間和空間的關系被無差別的進行處理了。

但是，作者認為時間和空間關系對信息的編碼，應該是有不同貢獻的。The spatial relation 可以從建模不同物體之間的拓撲關系得到優勢；The temporal relation 適合用於從多幀上聚合特征，從而可以避免低質量的 BBox 帶來的干擾。

考慮到時空關系的不同效果，我們提出一種新的時空關系模型，如圖1所示。首先在每一幀進行 spatial domain 的推理，該空間推理過程，利用自動學習的拓撲信息，加強了輸入的表觀特征。然后通過空間關系推理，將增強后的特征在多幀上進行信息聚合。

這兩種關系服從不同的形式。空間關系推理過程嚴格的服從 Eq. 1, 來編碼拓撲信息，結果輸出特征記為：。圖 4 展示了不同幀之間空間注意力權重的學習過程。總的來說，在不同幀上的注意力權重是穩定的，說明捕獲了拓撲表達。

時間關系的推理過程是在空間關系推理之后進行的。由於硬件設備的限制，作者考慮了過去 T1 幀的信息聚合（默認設置為 10）：

在每個輸入特征上定義的 attention weight，記為：

公式 4 其實是最近視頻幀的物體特征的加權平均。學習到的時間注意力權重如圖 5 所示。可以發現，模糊的，錯誤或者部分遮擋的物體被賦予較小的權重，表明可以自動學習到特征的質量，所以，可以很好的降低這些低質量的檢測結果對 tracklet 的表達。

2.2 Design of Feature Representation :

在上面講完關系模型的構建之后，作者接下來開始着重講解如何學習很好的特征表達。因為特征表達直接和最終性能相掛鈎。作者采用兩層網絡，來實現 tracklet 和 objects 之間相似性的度量：

其中，黃色區域的幾個元素分別代表：relation feature, consine similarity, location features and motion features。

2.2.1 Relation Features.

作者對輸入的關系特征進行 linear transform，作為 base feature type:

其中，$W_R$ 是用於 feature fusion 的線性轉換。

直接利用組合后的關系特征可以計算不同 modes 的相似性。但是，the freedom in representation is double-edged 也增加了學習各自特征的復雜度。為了解決該問題，作者提出顯示的計算兩個關系特征的余弦距離：

其中，$W_C$ 是一個 linear layer 將原始的關系特征，投影到低維度的表達，即128-D。具體的各種特征計算方法，如下圖 6 所示：

2.2.2 Location Features :

位置/運動特征 (Location/motion feature) 是另一種廣泛應用於計算相似性得分的線索。我們將位置/運動特征從 tracklet 的最后一幀，來表示整個的，因為遠距離幀的位置/運動模型可能導致當前幀的漂移。位置特征可以結合到作者提出的 pipeline 中。將 bare location features 首先進行 embedding，投射到高維度的空間，然后將其與 relation feature 進行組合，來產生最終的相似性得分。進行映射和投影的方法如下：

其中，* 是 {L, M} 之一。第一種是包圍盒歸一化后的絕對位置 (the normalized absolute location of bounding box):

The other location feature depit the motion information of an object in consecutive frames:

3. Experiments:

作者在多個 MOT 的 benchmark 上進行了實驗，結果如下：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 多目標跟蹤筆記三：Global Data Association for Multi-Object Tracking Using Network Flows 論文筆記之：Learning to Track: Online Multi-Object Tracking by Decision Making 論文閱讀筆記（十一）【ICCV2017】：Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identiﬁcation Paper Reading: Relation Networks for Object Detection 【論文筆記】Relation Networks for Object Detection （轉）Multi-Object-Tracking-Paper-List Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition (ST-GCN) 【論文筆記】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 論文閱讀筆記（四十二）【AAAI2019】：STA：Spatial-Temporal Attention for Large-Scale Video-based Person Re-Identiﬁcation 論文筆記：Learning Dynamic Memory Networks for Object Tracking