Hierarchical Convolutional Features for Visual Tracking
ICCV 2015
摘要:跟盧湖川老師的那個文章一樣,本文也是利用深度學習各個 layer 之間提取出來的不同特征進行跟蹤。因為各個層次提出來的 feature 具有不同的特征。並且將各個層級的特征用現有的 correlation filter 進行編碼物體的外觀,我們在每一個層上尋找最佳響應來定位物體。
引言:討論了現有的跟蹤問題存在的挑戰以及現有方法取得的一些進展,並且引出了研究 CNN 各個 layer 的特征對跟蹤結果的影響。
現有的 deep learning 的跟蹤方法基本都是依賴於訓練分類器的方式來實現物體的跟蹤。但是這種做法存在兩個技術上挑戰:
1. 大部分的算法都只是用到了最后一層提出的 feature,這一層的特征其實是具有一定的偏差性的;
對於高層視覺識別問題,這些特征提供了有效的語義信息。但是跟蹤並不是識別其semantic classes,而是去定位物體的位置。
那么,很明顯,僅僅用最后一層的特征,並不是最優的選擇。
2. 第二個問題是關於提取訓練樣本。
訓練一個 robust 的分類器需要大量的兩本,但是這個在跟蹤問題上,並不是非常的適合。因為在一個物體周圍進行采樣,很難確定哪個算是正樣本,哪個是負樣本。
本文通過兩種方式來解決這兩個技術難題。
(1)利用神經網絡的各個層的特征,聯合的來表示所要跟蹤的物體;
(2)在各個層次自適應學習 correlation filter,而不必去進行樣本的 sampling。
本文總結的幾個貢獻點為:
1. 結合了各個層次的特征,進行物體的特征表示;
2. 采用線性 correlation filter 的方式在每一層來降低 sampling ambiguity。我們 infer 物體位置是通過一種 multi-level correlation response map in a coarse-to-fine fashion.
3. 充分的實驗。
為了更好的理解現有方法和傳統方法的區別和聯系,本文的相關工作寫的還是挺不錯的。現在我們來分析下這個小節:
Tracking by Binary Classifiers .
跟蹤問題可以看做是局部窗口內的一個重復的檢測問題,即:tracking by detection的思路。這種分類器學習的方式經常是 online的。
但是,在物體周圍采樣本的時候,經常會遇到模糊采樣的問題,導致輕微的不准確采樣就會使得分類器不准確,從而導致逐漸的偏移。已經有許多算法提出以嘗試解決上述問題。核心的 idea就是如何合適的更新一個判別分類器來降低 drift。這里作者給出了許多例子,這里就不一一列舉了。
Tracking by Correlation Filters .
相關濾波最近吸引了很多研究者的眼球,由於其采用了快速傅里葉變換,速度極快。基於 correlation filter 的跟蹤方法回歸所有輸入特征的 circular-shifted versions 到一個目標高斯函數,從而不使用 hard-thresholded samples of target appearance.
本文也是基於這種方法來做得,不同的地方在於,本文的方法結合了不同層次上的特征,而不是傳統手工特征。
那么,看到這里,其實本文的工作一句話來說就是:組合了深度學習的特征 + 現有的 correlation filter 進行跟蹤。其實,學術貢獻點並不是很大,居然可以發 ICCV 。。。
Tracking by CNNs .
視覺表示是跟蹤問題中非常重要的問題,傳統方法設計了很多非常有效的表示,例如:子空間表示,顏色直方圖。最近CNN 的表示已經被廣泛的驗證了其有效性。
然后作者列舉了幾個深度學習的工作,指出其不足之處在於:僅僅用到了最后一層的 feature,這是遠遠不夠的。
可以看出相關工作的寫作,是非常具有針對性的。列舉前人工作的時候,要根據自己方法的特色來划分類別和指出別人的不足。
本文的貢獻點是:CNNs + different feature + correlation filter
所以,作者從這三個角度,分別攻擊了前人方法的不足,其實是借助了另外的兩個成分來彌補當前談論的方法的缺陷。這個寫作技巧可以借鑒在以后的文章寫作中去。
下面這幅圖展示了各個 layer 特征的不同。
本文所提出的方法流程:
文章的主題部分大致分為幾個部分:
1. 卷積特征的提取;
2. Correlation Filter 的相關介紹;
3. Coarse-to-Fine Translation Estimation ;
4. Model Update
本文的算法流程如下所示:
實驗結果: