論文筆記之:Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking


 

Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking 

arXiv Paper

 

  Project Pagehttp://guanghan.info/projects/ROLO/

  GitHubhttps://github.com/wangxiao5791509/ROLO  

  摘要:本文提出了一種新的方法進行空間監督 RCNN 來進行目標跟蹤。我們通過深度神經網絡來學習到  locations 的歷史信息 和 具有判別性的視覺特征。收到最近的 bbox 回歸技術的啟發,本文研究了 LSTM 在時間領域的回歸能力,可以連接高層視覺特征。跟現有的跟蹤算法訓練二分類器不同,我們在卷積層 和 recurrent unit 兩個方面利用回歸直接得到跟蹤位置的預測。

  由於受到各種跟蹤問題的挑戰,許多 tracker 都是采用產生式或者判別式的方法來區分前景或者背景,也就是將跟蹤看做是一個二分類問題。一個主要的缺點在於:嚴重依賴於手工設計的feature,無法結合物體的語義信息(semantic information),對於突然的形變並不具有魯棒性。所以,隨着深度學習的火爆,越來愈多的 tracker 開始采用深度feature。但是,在時序上的探索,幾乎還沒有。

  本文的關鍵動機是:tracking failures can often be effectively recovered by learning from historical visual semantic and tracking proposals

 

  算法流程

  如上圖所示:算法的輸入是 video frame,第一個框架是 YOLO,然后是 LSTM 單元,最終輸出的是 target 的 location。

  然后文章介紹了 LSTM 和 YOLO 的相關背景知識,此處略去,詳情請參考相關文章。

  

  本文提出的 tracker 的示意圖,如下所示:

  

  網絡的訓練分為三個階段

  1.  the pre-trained phrase of convolutional layers for feature learning;      卷積層的預訓練,以提取 feature

  2.  the traditional YOLO training phase for object proposal          訓練 YOLO 以產生 proposal

  3.  the LSTM training phase for object tracking.              訓練 LSTM 進行跟蹤

 


 

實驗效果展示: 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM