Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking
arXiv Paper
Project Page:http://guanghan.info/projects/ROLO/
GitHub:https://github.com/wangxiao5791509/ROLO
摘要:本文提出了一種新的方法進行空間監督 RCNN 來進行目標跟蹤。我們通過深度神經網絡來學習到 locations 的歷史信息 和 具有判別性的視覺特征。收到最近的 bbox 回歸技術的啟發,本文研究了 LSTM 在時間領域的回歸能力,可以連接高層視覺特征。跟現有的跟蹤算法訓練二分類器不同,我們在卷積層 和 recurrent unit 兩個方面利用回歸直接得到跟蹤位置的預測。
由於受到各種跟蹤問題的挑戰,許多 tracker 都是采用產生式或者判別式的方法來區分前景或者背景,也就是將跟蹤看做是一個二分類問題。一個主要的缺點在於:嚴重依賴於手工設計的feature,無法結合物體的語義信息(semantic information),對於突然的形變並不具有魯棒性。所以,隨着深度學習的火爆,越來愈多的 tracker 開始采用深度feature。但是,在時序上的探索,幾乎還沒有。
本文的關鍵動機是:tracking failures can often be effectively recovered by learning from historical visual semantic and tracking proposals.
算法流程:
如上圖所示:算法的輸入是 video frame,第一個框架是 YOLO,然后是 LSTM 單元,最終輸出的是 target 的 location。
然后文章介紹了 LSTM 和 YOLO 的相關背景知識,此處略去,詳情請參考相關文章。
本文提出的 tracker 的示意圖,如下所示:
網絡的訓練分為三個階段:
1. the pre-trained phrase of convolutional layers for feature learning; 卷積層的預訓練,以提取 feature
2. the traditional YOLO training phase for object proposal 訓練 YOLO 以產生 proposal
3. the LSTM training phase for object tracking. 訓練 LSTM 進行跟蹤
實驗效果展示: