論文筆記:Learning Attribute-Specific Representations for Visual Tracking


Learning Attribute-Specific Representations for Visual Tracking

AAAI-2019

 

Paperhttp://faculty.ucmerced.edu/mhyang/papers/aaai2019_tracking.pdf 

 

本文提出一種新的學習思路,即:屬性信息 (e.g., illumination changes, occlusion and motion) ,來進行 CNN 特征的學習,以得到更加魯棒的 tracker。具體來說,就是設計一種基於屬性的 CNN,並且帶有多個分支,每一個分支用於分類特定屬性的目標。這種設計的優勢在於:在每一種挑戰下,降低了目標外觀的多樣性,用更少的訓練數據就可以訓練模型(reduces the appearance diversity of the target under each attribute and thus requires less data to train the model)。我們將所有的特定屬性feature,通過集成層(ensemble layer)進行聚合,得到更加具有判別力的特征來進行分類。其實這個思路,類似於 MDNet,但是又跟 MDNet 不同。 

 

具體流程(ANT Tracker)

1. Attribute-based Neural Network: 

如上圖所示,該網絡的前幾層是從 VGG-M 模型得到的幾層卷積層,用於提取底層信息,如邊緣和紋理信息等。然后,用五個屬性分支來學習對應屬性的表達。文章作者用了 VOT 數據集提供的五個屬性:target motions, camera motions, illumination variations, occlusions, and scale change, 這些挑戰性因素可以涵蓋 OTB100 數據集的 11 種屬性。此外,VOT數據集屬性的標注是每一幀都進行了標注,這就允許作者可以將訓練數據集划分為不同的屬性組(attribute groups)來訓練對應的分支。

 

緊跟着這些屬性分支的是 ensemble layer 和 fc layer。在測試階段,屬性組是未知的,一個視頻幀可能也包含多種屬性。所以,僅僅將視頻幀傳送到每一個分支也是不合理的。所以,作者這里將輸入圖像區域傳遞到所有的屬性分支,並且訓練一個 ensemble layer 來自適應的組合所有的特征,得到一個充分並且具有判別性的表達。ensemble layer 的輸出被傳送到 FC layer 進行最終前景和背景的分類。

 

對於每一分支的結構,我們采用 Inception 的結構,如下圖所示,以得到更好的feature。

2. Two-Stage Training: 

作者這里提到 end-to-end learning 的方式,無法確保每個分支可以學會分類對應屬性的數據(can not guarantee each branch to learn to classify data of the corresponding attribute),因為任何訓練樣本的分類損失都可以反向傳遞到所有的五個分支。為了解決這個問題,作者采用了兩個階段的訓練策略。

Stage-I:training attribute branches

這個五個分支是依次訓練的。特別的,作者將 ensemble layer 和 last FC layer 移除,然后對每一種屬性,添加一個 new FC layer,進行訓練。

Stage-II:training ensemble layers. 

一旦上述屬性分支訓練完畢,就開始訓練 ensemble layer,以得到這些特征的最終集成特征,用於分類。首先將 FC 層給 remove 掉,然后,接上 ensemble layer 和 FC layer,繼續訓練。這里采用 softmax-loss 進行訓練,大約 150 次迭代后,開始收斂。

 

3. Tracking:

在實際跟蹤的時候,就直接通過采樣,然后打分的方式進行:

 

4.  實驗結果:

 

 

 

==


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM