（轉）CVPR 2016 Visual Tracking Paper Review

本文轉載自查看原文 2016-11-03 20:02 2198 目標檢測與跟蹤/ 深度學習/ Visual Tracking

　　CVPR 2016 Visual Tracking Paper Review

本文摘自：http://blog.csdn.net/ben_ben_niao/article/details/52072659

　　　　　http://blog.csdn.net/ben_ben_niao/article/details/52078727

做了一段時間的跟蹤，最近CVPR大會也過了一段時間了，這次將CVPR2016跟蹤的文章做一次總結，主要是對paper的方法，創新，改進等方面進行介紹和總結。具體的實現細節不進行總結，

今年來涌現了很多做跟蹤的文章，但是目前多少的方法很難達到一個預期的效果。目前的跟蹤主要有主要有如下幾大難題：

解決快速移動問題。這個問題其實是算法速度的問題，通常的做法是在一個搜索區域進行跟蹤，這樣對快速移動物體的魯棒性較低，如果索索區域越大，算法耗時，怎么權衡這兩者的關系是一大難題。
解決遮擋，形變問題。由於跟蹤問題online的樣本太少，當物體遮擋，形變后,比較難跟蹤。遮擋的情況有多種，要解決的是一個綜合問題。目前深度學習的方法因對遮擋的效果明顯比傳統的算法好，但是速度是一大瓶頸。
速度問題。速度問題可以說是與上述兩個問題互斥，最后都是各個問題的綜合權衡。一般來講，傳統的算法速度比基於深度學習的方法快，但效果卻不及。

今年的CVPR2016中，其實好多文章很早網上就有了，在這了也是對以前的一個總結。

一，Adaptive Decontamination of the Training Set:A Unified Formulation for Discriminative Visual Tracking

這篇文章的作者為SRDCF的作者，主要解決從訓練樣本進行改進。效果提升不少。

特點：
- 利用樣本的quality來訓練樣本的權重。期望提高有較高quality的樣本的impact,降低較差樣本的影響。
- 將樣本的quality融合到現有的loss function,從而達到同時訓練求解。
- 效果.和SRDCF相比，在OTB15數據集IoU=0.5時，OPE提升從60.5%提升到63.4%，也不錯，而且該思想可以用到很多算法上，擴展性較強。

其實本文的想法很簡單，可信度越高的訓練樣本，給較高的權重，相反則降低。這種思想很多地方都有，關鍵是怎么設計loss function達到作者的目的，在一個層面上，作者是第一個實現並結果尚佳的。相比以前，最簡單粗暴的方法就是通過設定一個閾值,低於閾值的sample認為quality太低，直接舍棄，相反則保留，或者將score作為樣本的權重。hard negative也是解決樣本的其中一個流行方法。而本文作者的方法是，通過訓練得到樣本的權重。

作者設計的代價函數如下（求解：兩步法，固定一個求另一個，然后固定另一個...交替循環求解）：

直觀的感受一下效果如下：

二，STCT: Sequentially Training Convolutional Networks for Visual Tracking

這篇文章是港中文大學王曉剛之作，主要解決的還是訓練樣本太少造成的over-fitting問題。

特點：
- 將每個channel的feature map作為一個based-classifier,並且每一個channel的based-classifier的loss設計不同.
- based-classifier根據相關性來選取(前一個based-classifier會作用當前這個based-classifier的選取),盡量不相關（類似PCA）。
- 在convolution上用mask進一步防止over-fit（其實類似fc的dropout，只是說法不同）。

上述中，第二點為主要特點，整文基本圍繞第二點來設計，對此作者在pre-trained的網絡后面額外加入兩層網絡，並且這兩層網絡並不是全連接，pipeline如下:

三，Staple: Complementary Learners for Real-Time Tracking

這篇文章主要是從特征結合方面入手，對跟蹤算法進行改進。給我們提供了一種有效的結合方式，並且作者release的速度達到80fps[i7 core],這一點相當有意義。

特點：
- 將Hog特征和color（直方圖）特征進行有效的結合，在保證效果的基礎上速度達到80+fps.
- 提出了一種有效的特征融合方法，以及代價函數的設計和求解。

那么為什么要進行這樣的融合呢？首先，hog特征是基於cell_size的梯度統計特征，局部魯棒性較好，但是對全局的形變，效果不太好，而color直方圖統計基於全局，能有效的彌補這一缺點，所以作者采用的是這兩種特征的融合。

作者設計的score function為：

其實最low的組合是將特征融合在一起，然后用一個跟蹤算法算得score.當然作者並非采用的這樣方法，而是采用更復雜的方法。作者是從score(即responce)方面進行融合，也就是算法包括兩部分：

計算hog特征，進行filter濾波跟蹤算法，得到f_tmpl的score。

計算color直方圖特征，等，得到f_hist的score.

將兩個score進行組合。

這樣融合，在兩種特征計算濾波器也要單獨計算，這樣也使得整個過程稍微復雜了。

直觀感受作者的pipeline:

四，Siamese Instance Search for Tracking

這篇文章思路很簡單，直接訓練一個Siamese網絡，然后進行比對，判斷是不是相同。其實就是一個Re-ID的過程。之所以在這里列出這篇文章，是因為在特定的場合可以和檢測相結合來跟蹤，彌補檢測速度比跟蹤慢以及Re-ID的問題。

特點：
- offline訓練Siamese網絡,online直接選擇候選區域和第一幀的groundtruth對比,然后對通過的候選區域做BBox回歸，得出最終的BBox。
- 缺點很明顯，遮擋，形變，類內區分等魯棒性低。

直接上網絡圖：

五，Beyond Local Search: Tracking Objects Everywhere with Instance-Specific Proposals

這篇文章在vot2015年就出來了，當時叫：“Tracking Randomly Moving Objects on Edge Box Proposals”，這篇文章主要是結合全局proposal來解決fast motion的問題。

特點：
- 將檢測中的proposal的思想用到跟蹤里。使跟蹤的候選區域既包含局部的搜索區域，也包含全局的一些proposal，從而提高對快速移動物體的魯棒性。
- 提取全局proposal：將目標區域划分為10個子區域，將子區域的特征進行組合，來計算全局的proposal.
- 提取proposal所用到的特征和最后跟蹤所用到的特征是不同的特征。

其中，本文最主要的特點為上述的第二點，為了直觀理解，直接上第二點的圖：

文章的pipeline:

參考文獻:

[1],Adaptive Decontamination of the Training Set:A Unified Formulation for Discriminative Visual Tracking

[2],Staple: Complementary Learners for Real-Time Tracking

[3],Siamese Instance Search for Tracking

[4],Beyond Local Search: Tracking Objects Everywhere with Instance-Specific Proposals

[5],STCT: Sequentially Training Convolutional Networks for Visual Tracking

接着上一篇博客，今天對剩下的文章進行簡單總結，同樣，文章只對paper的主要特點，和流程框架進行總結，具體細節盡可能不涉及。

一，Recurrently Target-Attending Tracking

首先介紹這一片文章，作者主要將RNN運用到物體跟蹤上，主要想解決遮擋等問題。其實這篇文章思路和KCF和SRDCF思路一樣，只是將其與RNN進行了結合，而且作者在公式說明上寫的很復雜，其實原理並不復雜。簡單的理解作者的貢獻就是：通過RNN獲取considence map,並將其作為SRDCF懲罰項w的值（原始SRDCF懲罰項是Gauss分布的值來抑制boundary effect,作者要用RNN來獲得w是期望提高沒有遮擋部分的impact,降低遮擋部分的影響，而且具有context信息，從而提高算法對遮擋的魯棒性）。

特點：
- 將RNN運用到tracking,結合grid思想，將區域划分為grid,並對每個grid進行四個方向RNN。
- 將RNN的得到的結果（confidence map）用初始化SRDCF loss function的懲罰項。
- 作者給出的實驗結果（只給出了filter based methods的比較）來看，效果還可以。但是速度慢：4fps

本文首先將候選區域進行grid划分，然后對其提取特征，將每一個grid區域進行四個方向的RNN，然后疊加得到RNN輸出的confidence map。那么為啥要用到RNN呢，並且划分grid呢？

首先grid主要是part-based思想的運用。可以通過mask控制grid，從而期望解決（目標被）遮擋問題。

RNN比其LSTM來說，RNN具有low-freedom parameter space,而跟蹤問題本身樣本少，容易overfit,RNN這一性質可以緩和過擬合。

在RNN階段，作者利用softmax來獲取confidence map,並肩這個值作為如下公式中的W(如下公式其實就是SRDCF中的loss function),用該loss function 訓練濾波器。求解過程和SRDCF一樣。

說到這里，這下可以直接給出作者的pipeline了：

效果（遺憾的是，並沒有和SRDCF的比較）：

二，Hedged Deep Tracking

這篇文章為Ming-Hsuan Yang之作，由於高層卷積具有一定的語義信息，而位置信息卻不夠精確，而對於跟蹤來講，位置信息也很重要，所以本文主要是想通過這兩者的一種結合。對不同卷基層的特征進行單獨處理，最后將每一層特征獲得的responce map做一個線性組合，得到最終的結果。

主要特點
- 對每一層的特征進行訓練，得到濾波器（文章稱為weak tracker，用的KCF算法）,然后將weak tracker進行線性組合,得到stronger tracker(類似boosting).
- 組合采用的是Hedge 算法。
- 效果還可以，相比MEEM來說提升不少（相對現在的冠軍來說應該是差一些）。

所以很容易理解作者的Pipeline:

從上面可以看出，主要就是濾波器和Hedge組合算法的運用。文章采用的是KCF算法，由於第一次接觸Hedge算法，所以在這里對算法思路進行講解。

由上面可知，每一個weak tracker都會有對應的responce map,那么hedge算法是怎么組合在一起呢？

Hedge算法進行濾波器的組合：
- detection利用的組合公式如下，利用該公式即可進行跟蹤。

train,有了前面detection的跟蹤結果后，怎么update呢（其實就是update上式中的w_t）？首先利用每個weak tracker的responce map計算一個loss,公式如下（S表示Score或者responce Map,k為weak tracker）：

然后利用的度量式子（regret measure）為：

其中：

那么最小化如下的代價函數即可跟新w_t的值：

到此算法跟新完畢！

三，Hierarchical Convolutional Features for Visual Tracking

這篇文章是ICCV15，但是和上文關系很大，同樣是Ming-Hsuan Yang之作，同樣是想結合高底層的特征進行組合。只是和上文不同的是（上文是訓練多個weak tracker，然后組合得到stronger tracker）:這篇文章是利用高層的進行粗定位，然后類似金字塔搜索從上往下進行由coarse-to-fine進行搜索（其實就是金字塔的搜索思想）。同上，也用的kcf算法。

所以主要特點：
- 金字塔搜索策略用到不同的卷積特征層，實現從上往下，從coarse-to-fine的匹配搜索(文中叫Hierarchical)。
- 缺點：很明顯，如果高層定位偏差太大，那么會導致最終結果的錯誤。
- 作者也提到其他的缺點：高層的特征對光照魯棒性較低（很好理解，高層更多的語義信息，較少的discriminal）

根據上面的特點，pipeline為：

作者將這三層的responce map可視化為如下：

作者從上到下，從coarse-to-fine的score計算公式為：

未完待續！

參考文獻：

[1],Recurrently Target-Attending Tracking

[2],Hedged Deep Tracking

[3],Hierarchical Convolutional Features for Visual Tracking

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 （轉）Multi-Object-Tracking-Paper-List ECCV 2016 paper list Correlation Filter in Visual Tracking系列一：Visual Object Tracking using Adaptive Correlation Filters 論文筆記論文筆記：Parallel Tracking and Verifying: A Framework for Real-Time and High Accuracy Visual Tracking 論文筆記：Learning Attribute-Specific Representations for Visual Tracking 一次性下載CVPR2016的所有文章 CVPR2020_Improved Few-Shot Visual Classification 論文筆記：Deeper and Wider Siamese Networks for Real-Time Visual Tracking 論文筆記之：Learning Multi-Domain Convolutional Neural Networks for Visual Tracking 論文閱讀之：Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space