Learning regression and verification networks for long-term visual tracking
2019-02-18 22:12:25
Paper:https://arxiv.org/abs/1809.04320
Code:https://github.com/xiaobai1217/MBMD
一、文章動機:
本文是為了更好的處理長期跟蹤問題,而提出一種結合 Regression 和 Classification Network 的跟蹤方法。因為常規的視覺跟蹤依賴於 Tracking-by-detection 框架,這種框架自帶的局部搜索機制無法很好的處理快速運動,目標的完全消失等挑戰性因素。所以,如何針對這些問題,設計基於全局的搜索機制是一個非常值得研究的問題。本文也采用了 Local 和 Global search 相結合的策略,來處理這一問題。
二、跟蹤流程:

整體的流程圖如上圖所示, 主要包含 Regression Network 和 Verification Network。其中回歸網絡的作用主要是特征提取+候選框產生;而驗證網絡的作用是為了提供更好的打分依據(基於 MDNet 強大的判別能力)。
1. Regression Network:
該網絡采用 SSD 檢測框架以及 MobileNet 為特征提取器。兩路網絡共享相同的網絡結構。由於 Search Region 和 Template 的大小並不一致,所以這里會有兩個 feature map 輸出。這兩個 feature map 將會進行融合,輸入到 RPN 網絡中。融合的過程如下圖所示:

經過 RPN 之后,再利用 NMS 進行 BBox 的篩選,得到候選框。在上述過程中,很自然的有如下的疑問:為什么要將 Template 和 Search Region 進行融合?這里作者給出的解釋是:to provide the region proposal networks with representative features of the search region。相當於簡單的進行了一次 Siamese FC 的操作,得到了目標物體的響應圖。這樣,RPN 網絡更容易進行 Proposal 的生成(or 生成高質量的 Proposal)。
2. Verification Network:
有了上述產生的候選框,緊接着引入分類網絡進行候選框的打分。這里就是將上述 proposal 輸入到一個分類網絡中,得到是前景還是背景的得分。
3. Tracking Strategy:
如果是基於 Tracking-by-detection framework,已經可以進行跟蹤了,並且可以取得還不錯的效果。但是,Local 的搜索機制無法很好的處理上述提到的 短暫消失等問題。所以,作者這里采用閾值控制法,即,根據是否閾值的高低,來推測當前幀是否發生了物體完全消失的情況,實現 Local search 和 Global search 的切換。Global Proposal 產生的方法也是基於滑動窗口的方式進行的。該閾值的計算方式如下(由 Regression 和 Verification 的結果共同決定):

三、實驗結果:



