論文筆記之：Visual Tracking with Fully Convolutional Networks

本文轉載自查看原文 2016-07-04 19:54 1887

ICCV 2015 CUHK

　　本文利用 FCN 來做跟蹤問題，但開篇就提到並非將其看做是一個黑匣子，只是用來提取特征，而是在大量的圖像和 ImageNet 分類任務上關於 CNN 的 feature 做了大量的深度的研究。這些發現促使他們設計了該跟蹤系統，他們發現：不同的卷積層會從不同的角度來刻畫目標。頂層的 layer 編碼了更多的關於語義特征並且可以作為種類檢測器，而底層的層懈怠了更多的具有判別性的信息，並且可以更好的區分具有相似外觀的目標。在跟蹤的過程中利用這兩種層的不斷切換而完成跟蹤。作者還發現，對於一個跟蹤目標，僅僅一些神經元是與其有關的，於是提出了一種 feature map 選擇機制來移除噪聲和不相關的 feature maps，可以減少計算量，並且提升了跟蹤的效果。在tracking benchmark 上取得了 state-of-the-art 的效果，具體是如何屌的，讓我們進一步的看。

　　Introduction：

　　視覺跟蹤領域仍然有許多未能很好解決的問題，像：明顯的外觀改變，姿態的改變，嚴重的遮擋，以及復雜背景等等。雖然傳統方法利用手工設計的方法也研發了許多經典的跟蹤算法，但是隨着 CNN 的出現，跟蹤領域也逐漸被深度學習方面的技術所占領，主要就是因為 CNN 可以得到更好的 feature 表達，這從很大的程度上超越了傳統方法，可以看到最近的深度方面的方法基本都將 tracking 的 benchmark 刷到了 90+% 的精度，但是這些方法基本都是在海量數據上先預訓練，然后 transfer 到跟蹤問題上。因為跟蹤問題，只是提供第一幀的 bounding box 使得深度的海量數據訓練的方法有些受困。但是，純粹的利用 CNN 強大的特征表達能力，並不能說跟蹤技術發展的有多快，更加只能的算法還有待開發出來。更多的人只是將 CNN 看作是一個黑匣子，這也是本文一直在強調的，那么本文是怎么做的呢？

　　本文分析了各個層的特征對跟蹤的影響，更加合理的選擇特征來做到減少計算量的同時，提升跟蹤性能。本文發現了兩個有意思的屬性，即：

　　1. 不同的層次 feature 對跟蹤問題的影響不同，具體表現在：

　　　　（1）頂層的 CNN 提出的 feature 具有較好的抽象和高層語義特征。這些特征對於區分不同的類別，或者對付形變和遮擋具有更好的魯棒性。

　　　　（2）底層的特征提供了更多的細節的局部信息，可以更好的區分外觀類似的目標。

　　這些方面的具體表現如下圖所示：

　　 2. 在 ImageNet 上預訓練得到的 CNN feature 來分辨一般性的物體。

　　但是對於一個物體來講，並非所有的 feature 都對魯棒的跟蹤有用。只有一部分是有用的，另外一部分就是屬於噪聲的 feature了，本文就提出一種選擇有用的方法，在排除 noise 的同時，可以更好的跟蹤目標。

　　所以本文的貢獻點，總結起來就是：

　　1. 分析了圖像分類上深度神經網絡上不同層的特征的屬性，以及對跟蹤問題的影響。

　　2. 提出一種結合兩種層次特征的跟蹤算法，更好的選擇特征，實現更加魯棒的跟蹤。

　　3. 提出一種 feature 選擇機制，去除干擾性的 feature，使得跟蹤算法更加高效以及精確。

　　不同層次特征屬性的分析：

　　本文跟蹤算法基於 VGG-19，16層卷積以及 3層 fc。

　　觀察1：Although the receptive field 1 of CNN feature maps is large, the activated feature maps are sparse and localized. The activated regions are highly correlated to the regions of semantic objects .

　　觀察2： Many CNN feature maps are noisy or unrelated for the task of discriminating a particular target from its background.

　　觀察3：Different layers encode different types of features. Higher layers capture semantic concepts on object categories, whereas lower layers encode more discriminative features to capture intra class variations.

　　所提出的跟蹤算法網絡設計 FCNT：

　　　從該網絡結構可以看出，本文是將輸入的視頻幀，首先利用 VGG-19提取feature，然后分別利用高層的特征，傳送給 SNet 以及 GNet，然后分別將這兩個特征圖進行映射，最后根據一個干擾性判別器，選擇其中的一個 heap map 作為最終的輸出，給出跟蹤目標的 bounding box。然后下一幀到來后，在上一幀的位置中心，提取出一個區域，然后在進行類似的選擇和定位。

　　1. Feature Map Selection

　　所提出的 feature map selection 方法是基於目標 heat map 回歸模型，稱為：sel-CNN，並且獨立於 Conv4-3 以及 Conv5-3。它將 Conv4-3 和 Conv5-3 的 feature map 作為輸入來預測目標 heat map M。該模型通過最小化預測的前景heat map 與目標 heat map M 之間的差距來進行訓練。

　　本文的實驗部分僅僅對第一幀圖像進行了 feature selection。

　　可以看到本文的精度並不算高，即：0.85，有的傳統方法的精度也已經達到了 0.9，更別提最近的深度學習方法了。

　　但是，從跟蹤過程可以看出並不簡單，確切的講，是有點復雜的。。。同樣是將 local 和 global 的信息利用起來，本文從另一個角度來解釋這個問題，搞得不錯。從重構出 heat map，到 heat map 的選擇，也可以看出不同層特征的影響。

　　但是感覺，不應該精度這么低啊！呃呃呃、、、

　　下面是跟與其他方法的對比，以及自身關於各種挑戰的魯棒性的分析：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文筆記之：Fully-Convolutional Siamese Networks for Object Tracking 論文筆記之：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking 論文筆記之：Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking 論文筆記《Fully Convolutional Networks for Semantic Segmentation》論文筆記之： Hierarchical Convolutional Features for Visual Tracking 論文筆記之：Fully Convolutional Attention Localization Networks: Efficient Attention Localization for Fine-Grained Recognition 論文筆記《Notes on convolutional neural networks》論文筆記：Visualizing and Understanding Convolutional Networks 論文筆記 Visualizing and Understanding Convolutional Networks 論文筆記：Deeper and Wider Siamese Networks for Real-Time Visual Tracking