論文筆記:Learning regression and verification networks for long-term visual tracking


Learning regression and verification networks for long-term visual tracking

2019-02-18 22:12:25

 

Paper:https://arxiv.org/abs/1809.04320 

Code:https://github.com/xiaobai1217/MBMD 

 

一、文章動機

本文是為了更好的處理長期跟蹤問題,而提出一種結合 Regression 和 Classification Network 的跟蹤方法。因為常規的視覺跟蹤依賴於 Tracking-by-detection 框架,這種框架自帶的局部搜索機制無法很好的處理快速運動,目標的完全消失等挑戰性因素。所以,如何針對這些問題,設計基於全局的搜索機制是一個非常值得研究的問題。本文也采用了 Local 和 Global search 相結合的策略,來處理這一問題。

 

二、跟蹤流程

整體的流程圖如上圖所示, 主要包含 Regression Network 和 Verification Network。其中回歸網絡的作用主要是特征提取+候選框產生;而驗證網絡的作用是為了提供更好的打分依據(基於 MDNet 強大的判別能力)。

 

1. Regression Network

該網絡采用 SSD 檢測框架以及 MobileNet 為特征提取器。兩路網絡共享相同的網絡結構。由於 Search Region 和 Template 的大小並不一致,所以這里會有兩個 feature map 輸出。這兩個 feature map 將會進行融合,輸入到 RPN 網絡中。融合的過程如下圖所示:

經過 RPN 之后,再利用 NMS 進行 BBox 的篩選,得到候選框。在上述過程中,很自然的有如下的疑問:為什么要將 Template 和 Search Region 進行融合?這里作者給出的解釋是:to provide the region proposal networks with representative features of the search region。相當於簡單的進行了一次 Siamese FC 的操作,得到了目標物體的響應圖。這樣,RPN 網絡更容易進行 Proposal 的生成(or 生成高質量的 Proposal)。

 

2. Verification Network

有了上述產生的候選框,緊接着引入分類網絡進行候選框的打分。這里就是將上述 proposal 輸入到一個分類網絡中,得到是前景還是背景的得分。

 

3. Tracking Strategy

如果是基於 Tracking-by-detection framework,已經可以進行跟蹤了,並且可以取得還不錯的效果。但是,Local 的搜索機制無法很好的處理上述提到的 短暫消失等問題。所以,作者這里采用閾值控制法,即,根據是否閾值的高低,來推測當前幀是否發生了物體完全消失的情況,實現 Local search 和 Global search 的切換。Global Proposal 產生的方法也是基於滑動窗口的方式進行的。該閾值的計算方式如下(由 Regression 和 Verification 的結果共同決定):

 

三、實驗結果

 

四、總結:
本文針對 Long-term Tracking 設計的思路,但是短暫消失,物體的突變等因素引起的問題,在常規的 Visual Tracking 中也是存在的。而且,文章采用了較為粗暴的滑動窗口的方式進行 Global Proposal 的產生,這可能導致在多個相似目標出現時,導致跟蹤失敗。因為此時的 BBox 可能就跑到其他類似物體上去了。這也是跟蹤算法與真正的智能跟蹤算法最具有差異性的地方。如何提取更加高質量的 Proposal,請參考我們最新提出的目標驅動的全局搜索方法:Describe and Attend to Track: Learning Natural Language guided Structural Representation and Visual Attention for Object Tracking

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM