本文轉自:https://blog.csdn.net/weixin_40645129/article/details/81173088
CVPR2018已公布關於視頻目標跟蹤的論文簡要分析與總結
一,A Twofold Siamese Network for Real-Time Object Tracking
論文名稱
A Twofold Siamese Network for Real-Time Object Tracking
簡介
此算法在SiamFC的基礎上增加了語義分支,進一步提升SiamFC的判別力,從而提升了跟蹤效果,即使損失了一些速度,但是仍然達到了實時的跟蹤速度。總的來說,本文思路簡單明了,邏輯清晰,道理透徹,是一個不錯的單目標跟蹤工作,唯一欠缺的是其仍然沿用SiamFC在跟蹤過程中所有幀都和第一幀對比,是該類方法的主要缺陷。
創新點
1:將圖像分類任務中的語義特征與相似度匹配任務中的外觀特征互補結合,非常適合目標跟蹤任務,因此此算法可以簡單概括為:SA-Siam=語義分支+外觀分支;
2:對於新引入的語義分支,此算法進一步提出了通道注意力機制。在使用網絡提取目標物體的特征時,不同的目標激活不同的特征通道,作者對被激活的通道賦予高的權值,此算法通過目標物體在網絡特定層中的響應計算這些不同層的權值。
3:Motivation:目標跟蹤的特點是,作者從眾多背景中區分出變化的目標物體,其中難點為:背景和變化。此算法的思想是用一個語義分支過濾掉背景,同時用一個外觀特征分支來泛化目標的變化,如果一個物體被語義分支判定為不是背景,並且被外觀特征分支判斷為該物體由目標物體變化而來,那就認為這個物體即需要被跟蹤的物體;
4:此算法的目的是提升SiamFC在目標跟蹤任務中的判別力。作者提出了SA-Siam,這是一個雙重Siamese網絡,由語義分支和外觀分支組成。每一個分支都使用Siamese網絡結構計算候選圖片和目標圖片的相似度。為了保持兩個分支的獨立性,兩個Siamese網絡在訓練過程中沒有任何關系,僅僅在測試過程中才會結合。
主要框架
基於SiamFC修改,Siamese 網絡
效果
速度:50fps,
語義分支權重:外觀分支權重 = 7:3
OTB實驗:OTB-2013(0.896,0.677),OTB-2015(0.865,0.657)
代碼
沒公布
二,Context-aware Deep Feature Compression for High-speed Visual Tracking
論文名稱
Context-aware Deep Feature Compression for High-speed Visual Tracking
簡介
作者提出了一種在實時跟蹤領域高速且state-of-the-art表現的基於context-aware correlation filter的跟蹤框架。這個方法的高速性依賴於會根據內容選擇對應的專家自編碼器來對圖片進行壓縮;context在此算法中表示根據要跟蹤目標的外觀大致分的類。在預訓練階段,每個類訓練一個自編碼器。在跟蹤階段,根據給定目標選擇最佳的自編碼器——專家自編碼器,並且在下面階段中僅使用這個網絡。為了在壓縮后的特征圖上達到好的跟蹤效果,作者分別在與訓練階段和微調專家自編碼器階段提出了一種去噪過程和新的正交損失函數。
創新點
對於視頻這種高維度數據,作者訓練了多個自編碼器AE來進行數據壓縮,至於怎么選擇具體的網絡,
作者又訓練了一個基於目標選擇具體AE的網絡,再根據壓縮后的特征圖,進行協相關過濾操作追蹤目標。
本文創新的地方在於:
1. 兩種加噪聲的操作,既增加了魯棒性,又相當於數據增強。
2. 為了自編碼器的平穩訓練和防過擬合提出了multi-stage distance loss。
3. 最后移除相應低的通道和自編碼器針對通道而不針對圖像大小。
主要框架
correlation filter+ VGG-Net
效果
速度:超過100fps。
精度:
代碼
沒公布
三,Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking
論文名稱
Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking(STRCF)
簡介
此算法研究了在不損失效率的情況下,利用空間正則化和大型訓練集形式的優點的方法。一方面,SRDCF 的高復雜度主要來源於對多幅圖像的訓練形式。通過去除約束條件,單圖像樣本上的 SRDCF 可以通過 ADMM 有效地解決。由於 SRDCF 的凸性,ADMM 也能保證收斂到全局最優。另一方面,在 SRDCF 算法中,將空間正則化集成到多幅圖像的訓練形式中,實現了 DCF 學習與模型更新的耦合,提高了追蹤准確率。在在線被動攻擊 ( PA ) 學習 [ 6] 的啟發下,作者將時間正則化方法引入到單圖像 SRDCF 中,得到了時空正則化相關濾波器 ( STRCF )。STRCF 是多訓練圖像上 SRDCF 形式的合理近似,也可用於同時進行 DCF 學習和模型更新。此外,ADMM 算法也可以直接用於求解 STRCF。因此,本文提出的 STRCF 將空間正則化和時間正則化結合到 DCF 中,可以用來加速 SRDCF。此外,作為在線 PA 算法的擴展,STRCF 還可以在外觀大幅變化的情況下實現比 SRDCF 更魯棒的外觀建模。與 SRDCF 相比,引入時間正則化后的 STRCF 對遮擋具有更強的魯棒性,同時能夠很好地適應較大的外觀變化。
創新點
通過將空間和時間正則化納入 DCF 框架,提出了 STRCF 模型。基於在線 PA 的 STRCF 不僅可以合理地逼近多幅訓練圖像上的 SRDCF 形式,而且在較大的外觀變化情況下比 SRDCF 具有更強的魯棒性。
為高效求解 STRCF,開發了一種 ADMM 算法,其中每個子問題都有封閉形式的解。並且本文提出的算法可以在非常少的迭代中經驗地收斂。
本文提出的 STRCF 具有人工設計的特征,可以實時運行,相比 SRDCF 在准確率上有了顯著的提升。
主要框架
相關濾波,HOG,CN特征
效果
SRDCF 的變體和使用 HOG 特征的 STRCF 在 OTB-2015 和 Temple-Color 數據集上關於 OP(%)和速度(FPS)的比較。
代碼
沒公布
四,End-to-end Flow Correlation Tracking with Spatial-temporal Attention
論文名稱
End-to-end Flow Correlation Tracking with Spatial-temporal Attention
簡介
首先是motivation,作者注意到幾乎所有的跟蹤器都只用到了RGB信息,很少有用到視頻幀和幀之間豐富的運動信息;這就導致了跟蹤器在目標遇到運動模糊或者部分遮擋的時候,性能只能依靠離線訓練的特征的質量,魯棒性很難保證。於是作者就想利用視頻中的運動信息(Flow)來補償這些情況下RGB信息的不足,來提升跟蹤器的性能. 具體來說,作者首先利用歷史幀和當前幀得到Flow,利用Flow信息把歷史幀warp到當前幀,然后將warp過來的幀和本來的當前幀進行融合,這樣就得到了當前幀不同view的特征表示,然后在Siamese和DCF框架下進行跟蹤.
創新點
1. 第一篇把Flow提取和tracking任務統一在一個網絡里面的工作。
2.采用Siamese結構,分為historical branch和current branch. 在historical branch里面,進行Flow的提取和warp,
3.在融合階段,我們設計了一種spatial-temporal attention的機制.
4.在current branch,只提取特征. Siamese結構兩支出來的特征送進DCF layer, 得到response map.
總結來說,就是把Flow提取,warp操作,特征提取和融合,CF tracking都做成了網絡的layer,端到端地訓練它們。
主要框架
Siamese結構和DCF框架
效果
VOT2015結果
代碼
沒公布
五, Visual Tracking via Adversarial Learning
論文名稱
Visual Tracking via Adversarial Learning(VITAL)
簡介
此算法在VGG-M模型基礎上進行改進,在最后一個卷積層和第一個全連接層之間增加了一個產生式網絡,從而達到在特征空間增強正樣本的目的。具體的,產生式網絡輸入為目標特征,輸出為一個mask矩陣,該mask矩陣作用於目標特征后表示目標的一種外觀變化。通過對抗學習,該產生式網絡可以產生能保留目標特征中最魯棒部分的mask矩陣。最終,訓練得到的產生式網絡生成的mask矩陣可以對判別力強的特征進行削弱,防止判別器過擬合於某個樣本。
此算法提出了一個高階敏感損失來減小簡單負樣本對於分類器訓練的影響,這個道理很簡單,那些明明很容易被分類正確的負樣本其實在訓練過程中也會產生損失,然而不希望網絡關注這些損失,因為關注他們反而會使得網絡性能變差,實驗證明,此算法提出的新的損失函數不但可以提升精度,同時可以加速訓練的收斂。
創新點
此算法主要分析了現有的檢測式跟蹤的框架在模型在線學習過程中的兩個弊病,即:
1.每一幀中正樣本高度重疊,他們無法捕獲物體豐富的變化表征;
2.正負樣本之間存在嚴重的不均衡分布的問題;
針對上述問題,本文提出 VITAL 這個算法來解決,主要思路如下:
1.為了豐富正樣本,作者采用生成式網絡來隨機生成mask,且這些mask作用在輸入特征上來捕獲目標物體的一系列變化。在對抗學習的作用下,作者的網絡能夠識別出在整個時序中哪一種mask保留了目標物體的魯邦性特征;
2.在解決正負樣本不均衡的問題中,本文提出了一個高階敏感損失來減小簡單負樣本對於分類器訓練的影響。
主要框架
在VGG-M模型基礎上進行改進
效果
速度:1.5fps,(在Tesla K40c GPU下的速度)
代碼
沒公布
六,Unveiling the Power of Deep Tracking
論文名稱
Unveiling the Power of Deep Tracking(ECO+)
簡介
論文是對ECO的改進,deep tracker無法受益於更好更深CNN的深度特征,針對這一反常現象,實驗和分析表明這主要是由於淺層特征和深度特征的特性差異,兩種特征分而治之,深度特征部分加入了數據增強增加訓練樣本數量,用不同label function,淺層特征正樣本更少,深度特征正樣本更多。兩部分響應圖自適應融合,提出了可以同時反映准確性和魯棒性的檢測質量估計方法,基於這個質量評估,最優化方法自適應融合兩部分的響應圖,得到最優的目標定位結果。實驗結果在各個測試集上都是目前最好。
創新點
ECO+對ECO的核心改進是:
兩種特征區別對待,分而治之,深度特征負責魯棒性,淺層特征負責准確性,兩種檢測響應圖在最后階段自適應融合,目標定位最優化,兼具兩者的優勢。
主要框架
對ECO的改進,相關濾波+深度特征
效果
精度:
代碼
沒公布
七,Learning Spatial-Aware Regressions for Visual Tracking
論文名稱
Learning Spatial-Aware Regressions for Visual Tracking
簡介
利用核嶺回歸分析(KRR)和卷積神經網絡(CNN)互補的跟蹤。前者側重於整體的目標,后者關注當地的小區域。他們提出的追蹤器以一種新的方式結合了CNN和相關濾波,通過設計算法讓CNN專注於特定區域的回歸,相關濾波專注於全局的回歸,在最后對回歸的結果進行組合,以互補的方式得到物體的精確定位。文章旨在將CNN和KRR結合起來,其中CNN用於用於關注目標的局部信息,KRR用於關注目標的整體信息;
創新點
重新定義KRR中核的計算以及KRR的求解方法
1,用將目標分割成部件的思想定義了新的求核相關值的方法,並將該方法融入到CNN中作為一個組件進行高效求解;
2,在CNN用於跟蹤的任務中提出了空間正則化方法(類似SRDCF思想),主要做法是通過學習強制讓CNN的各個通道分別關注於目標特定的子區域;
3,提出了適用於跟蹤的新的Pooling方法:distance transform pooling用於判斷CNN輸出層的有效性;
4,將1和2中的結果進行融合,共同確定目標位置;
主要框架
深度學習框架
效果
VOT2017 比賽性能第一;
速度:1fps,沒有實時;
OTB-100性能:精度——0.923,覆蓋率——0.672;
代碼
http://data.votchallenge.net/vot2017/trackers/24_LSART.zip
八,Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking
論文名稱
Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking
簡介
RASNet使用三個attention機制對SiamFC特征的空間和channel進行加權,分解特征提取和判別性分析的耦合,用來提升判別能力。
創新點
1.作者做的工作的本質就是讓網絡去預測對偶變量。
2.為了增加網絡的判別能力,一個通用的attention似乎並不夠。CF根據每個模板圖像進行學習,得到很好的判別器。作者也模仿這個機制,根據第一幀圖像的feature,使用網絡學習一個動態的attention。
3.能讓網絡學習的就學習,盡量避免在線學習。
4.提出殘差結構,希望殘差學習的部分的均值近似為0。
主要框架
深度學習框架
效果
精度:
代碼
沒公布
---------------------
作者:weixin_40645129
來源:CSDN
原文:https://blog.csdn.net/weixin_40645129/article/details/81173088
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!