論文筆記之:Visual Tracking with Fully Convolutional Networks


論文筆記之:Visual Tracking with Fully Convolutional Networks

ICCV 2015  CUHK

  本文利用 FCN 來做跟蹤問題,但開篇就提到並非將其看做是一個 黑匣子,只是用來提取特征,而是在大量的圖像和 ImageNet 分類任務上關於 CNN 的 feature 做了大量的深度的研究。這些發現促使他們設計了該跟蹤系統,他們發現: 不同的卷積層會從不同的角度來刻畫目標。頂層的 layer 編碼了更多的關於 語義特征並且可以作為種類檢測器,而底層的層懈怠了更多的具有判別性的信息,並且可以更好的區分具有相似外觀的目標。在跟蹤的過程中利用這兩種層的不斷切換而完成跟蹤。作者還發現,對於一個跟蹤目標,僅僅一些神經元是與其有關的,於是提出了一種 feature map 選擇機制 來移除噪聲和不相關的 feature maps,可以減少計算量,並且提升了跟蹤的效果。在tracking benchmark 上取得了 state-of-the-art 的效果,具體是如何屌的,讓我們進一步的看。

 


 

  Introduction

  視覺跟蹤領域仍然有許多未能很好解決的問題,像:明顯的外觀改變,姿態的改變,嚴重的遮擋,以及復雜背景等等。雖然傳統方法利用手工設計的方法也研發了許多經典的跟蹤算法,但是隨着 CNN 的出現,跟蹤領域也逐漸被深度學習方面的技術所占領,主要就是因為 CNN 可以得到更好的 feature 表達,這從很大的程度上超越了傳統方法,可以看到最近的深度方面的方法基本都將 tracking 的 benchmark 刷到了 90+% 的精度,但是這些方法基本都是在海量數據上先預訓練,然后 transfer 到跟蹤問題上。因為跟蹤問題,只是提供第一幀的 bounding box 使得深度的海量數據訓練的方法有些受困。但是,純粹的利用 CNN 強大的特征表達能力,並不能說跟蹤技術發展的有多快,更加只能的算法還有待開發出來。更多的人只是將 CNN 看作是一個黑匣子,這也是本文一直在強調的,那么本文是怎么做的呢?

  本文分析了各個層的特征對跟蹤的影響,更加合理的選擇特征來做到減少計算量的同時,提升跟蹤性能。本文發現了兩個有意思的屬性,即:

  1. 不同的層次 feature 對跟蹤問題的影響不同,具體表現在:

    (1)頂層的 CNN 提出的 feature 具有較好的抽象 和 高層語義特征。這些特征對於區分不同的類別,或者對付 形變 和 遮擋 具有更好的魯棒性。

    (2)底層的特征提供了更多的細節的局部信息,可以更好的區分外觀類似的目標。

  這些方面的具體表現如下圖所示:

 

    2. 在 ImageNet 上預訓練得到的 CNN feature 來分辨一般性的物體。

  但是對於一個物體來講,並非所有的 feature 都對魯棒的跟蹤有用。只有一部分是有用的,另外一部分就是屬於噪聲的 feature了,本文就提出一種選擇有用的方法,在排除 noise 的同時,可以更好的跟蹤目標。

  

  所以本文的貢獻點,總結起來就是:

  1. 分析了 圖像分類上深度神經網絡上不同層的特征的屬性,以及對跟蹤問題的影響。

  2. 提出一種結合兩種層次特征的跟蹤算法,更好的選擇特征,實現更加魯棒的跟蹤。

  3. 提出一種 feature 選擇機制,去除干擾性的  feature,使得跟蹤算法更加高效以及精確。

 


 

  不同層次特征屬性的分析

  本文跟蹤算法基於 VGG-19,16層卷積 以及 3層 fc。

  觀察1:Although the receptive field 1 of CNN feature maps is large, the activated feature maps are sparse and localized. The activated regions are highly correlated to the regions of semantic objects .

 

  觀察2: Many CNN feature maps are noisy or unrelated for the task of discriminating a particular target from its background.

  

  觀察3:Different layers encode different types of features. Higher layers capture semantic concepts on object categories, whereas lower layers encode more discriminative features to capture intra class variations.

  


 

  所提出的跟蹤算法網絡設計 FCNT:

 

   從該網絡結構可以看出,本文是將輸入的視頻幀,首先利用 VGG-19提取feature,然后分別利用 高層的特征,傳送給 SNet 以及 GNet,然后分別將這兩個特征圖進行映射,最后根據一個干擾性判別器,選擇其中的一個 heap map 作為最終的輸出,給出跟蹤目標的 bounding box。然后下一幀到來后,在上一幀的位置中心,提取出一個區域,然后在進行類似的選擇和定位。

 

  1. Feature Map Selection

  所提出的 feature map selection 方法是基於目標 heat map 回歸模型,稱為:sel-CNN,並且獨立於 Conv4-3 以及 Conv5-3。它將 Conv4-3 和 Conv5-3 的 feature map 作為輸入來預測目標 heat map M。該模型通過最小化 預測的前景heat map 與 目標 heat map M 之間的差距來進行訓練。

  本文的實驗部分僅僅對第一幀圖像進行了 feature selection。

  

  可以看到本文的精度並不算高, 即:0.85,有的傳統方法的精度也已經達到了 0.9,更別提最近的深度學習方法了。

  但是,從跟蹤過程可以看出並不簡單,確切的講,是有點復雜的。。。同樣是將 local 和 global 的信息利用起來,本文從另一個角度來解釋這個問題,搞得不錯。從重構出 heat map,到 heat map 的選擇,也可以看出不同層特征的影響。

  但是感覺,不應該精度這么低啊!呃呃呃、、、

 

 


 

  下面是跟與其他方法的對比,以及 自身關於各種挑戰的魯棒性的分析:

 

  

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM