from https://blog.csdn.net/weixin_40645129/article/details/81173088
CVPR2018已公布關於視頻目標跟蹤的論文簡要分析與總結
一,A Twofold Siamese Network for Real-Time Object Tracking
論文名稱 |
A Twofold Siamese Network for Real-Time Object Tracking |
簡介 |
此算法在SiamFC的基礎上增加了語義分支,進一步提升SiamFC的判別力,從而提升了跟蹤效果,即使損失了一些速度,但是仍然達到了實時的跟蹤速度。總的來說,本文思路簡單明了,邏輯清晰,道理透徹,是一個不錯的單目標跟蹤工作,唯一欠缺的是其仍然沿用SiamFC在跟蹤過程中所有幀都和第一幀對比,是該類方法的主要缺陷。 |
創新點 |
1:將圖像分類任務中的語義特征與相似度匹配任務中的外觀特征互補結合,非常適合目標跟蹤任務,因此此算法可以簡單概括為:SA-Siam=語義分支+外觀分支; 2:對於新引入的語義分支,此算法進一步提出了通道注意力機制。在使用網絡提取目標物體的特征時,不同的目標激活不同的特征通道,作者對被激活的通道賦予高的權值,此算法通過目標物體在網絡特定層中的響應計算這些不同層的權值。 3:Motivation:目標跟蹤的特點是,作者從眾多背景中區分出變化的目標物體,其中難點為:背景和變化。此算法的思想是用一個語義分支過濾掉背景,同時用一個外觀特征分支來泛化目標的變化,如果一個物體被語義分支判定為不是背景,並且被外觀特征分支判斷為該物體由目標物體變化而來,那就認為這個物體即需要被跟蹤的物體; |
主要框架 |
基於SiamFC修改,Siamese 網絡 |
效果 |
速度:50fps, 語義分支權重:外觀分支權重 = 7:3 OTB實驗:OTB-2013(0.896,0.677),OTB-2015(0.865,0.657) |
代碼 |
沒公布 |
二,Context-aware Deep Feature Compression for High-speed Visual Tracking
論文名稱 |
Context-aware Deep Feature Compression for High-speed Visual Tracking |
簡介 |
作者提出了一種在實時跟蹤領域高速且state-of-the-art表現的基於context-aware correlation filter的跟蹤框架。這個方法的高速性依賴於會根據內容選擇對應的專家自編碼器來對圖片進行壓縮;context在此算法中表示根據要跟蹤目標的外觀大致分的類。在預訓練階段,每個類訓練一個自編碼器。在跟蹤階段,根據給定目標選擇最佳的自編碼器——專家自編碼器,並且在下面階段中僅使用這個網絡。為了在壓縮后的特征圖上達到好的跟蹤效果,作者分別在與訓練階段和微調專家自編碼器階段提出了一種去噪過程和新的正交損失函數。 |
創新點 |
對於視頻這種高維度數據,作者訓練了多個自編碼器AE來進行數據壓縮,至於怎么選擇具體的網絡, 本文創新的地方在於: |
主要框架 |
correlation filter+ VGG-Net |
效果 |
速度:超過100fps。 精度: |
代碼 |
沒公布 |
三,Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking
論文名稱 |
Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking(STRCF) |
簡介 |
此算法研究了在不損失效率的情況下,利用空間正則化和大型訓練集形式的優點的方法。一方面,SRDCF 的高復雜度主要來源於對多幅圖像的訓練形式。通過去除約束條件,單圖像樣本上的 SRDCF 可以通過 ADMM 有效地解決。由於 SRDCF 的凸性,ADMM 也能保證收斂到全局最優。另一方面,在 SRDCF 算法中,將空間正則化集成到多幅圖像的訓練形式中,實現了 DCF 學習與模型更新的耦合,提高了追蹤准確率。在在線被動攻擊 ( PA ) 學習 [ 6] 的啟發下,作者將時間正則化方法引入到單圖像 SRDCF 中,得到了時空正則化相關濾波器 ( STRCF )。STRCF 是多訓練圖像上 SRDCF 形式的合理近似,也可用於同時進行 DCF 學習和模型更新。此外,ADMM 算法也可以直接用於求解 STRCF。因此,本文提出的 STRCF 將空間正則化和時間正則化結合到 DCF 中,可以用來加速 SRDCF。此外,作為在線 PA 算法的擴展,STRCF 還可以在外觀大幅變化的情況下實現比 SRDCF 更魯棒的外觀建模。與 SRDCF 相比,引入時間正則化后的 STRCF 對遮擋具有更強的魯棒性,同時能夠很好地適應較大的外觀變化。 |
創新點 |
|
主要框架 |
相關濾波,HOG,CN特征 |
效果 |
SRDCF 的變體和使用 HOG 特征的 STRCF 在 OTB-2015 和 Temple-Color 數據集上關於 OP(%)和速度(FPS)的比較。
|
代碼 |
沒公布 |
四,End-to-end Flow Correlation Tracking with Spatial-temporal Attention
論文名稱 |
End-to-end Flow Correlation Tracking with Spatial-temporal Attention |
簡介 |
首先是motivation,作者注意到幾乎所有的跟蹤器都只用到了RGB信息,很少有用到視頻幀和幀之間豐富的運動信息;這就導致了跟蹤器在目標遇到運動模糊或者部分遮擋的時候,性能只能依靠離線訓練的特征的質量,魯棒性很難保證。於是作者就想利用視頻中的運動信息(Flow)來補償這些情況下RGB信息的不足,來提升跟蹤器的性能. 具體來說,作者首先利用歷史幀和當前幀得到Flow,利用Flow信息把歷史幀warp到當前幀,然后將warp過來的幀和本來的當前幀進行融合,這樣就得到了當前幀不同view的特征表示,然后在Siamese和DCF框架下進行跟蹤. |
創新點 |
1. 第一篇把Flow提取和tracking任務統一在一個網絡里面的工作。 2.采用Siamese結構,分為historical branch和current branch. 在historical branch里面,進行Flow的提取和warp, 3.在融合階段,我們設計了一種spatial-temporal attention的機制. 4.在current branch,只提取特征. Siamese結構兩支出來的特征送進DCF layer, 得到response map. 總結來說,就是把Flow提取,warp操作,特征提取和融合,CF tracking都做成了網絡的layer,端到端地訓練它們。 |
主要框架 |
Siamese結構和DCF框架 |
效果 |
VOT2015結果 |
代碼 |
沒公布 |
五, Visual Tracking via Adversarial Learning
論文名稱 |
Visual Tracking via Adversarial Learning(VITAL) |
簡介 |
|
創新點 |
此算法主要分析了現有的檢測式跟蹤的框架在模型在線學習過程中的兩個弊病,即: 2.正負樣本之間存在嚴重的不均衡分布的問題; |
主要框架 |
在VGG-M模型基礎上進行改進 |
效果 |
速度:1.5fps,(在Tesla K40c GPU下的速度) |
代碼 |
沒公布 |
六,Unveiling the Power of Deep Tracking
論文名稱 |
Unveiling the Power of Deep Tracking(ECO+) |
簡介 |
論文是對ECO的改進,deep tracker無法受益於更好更深CNN的深度特征,針對這一反常現象,實驗和分析表明這主要是由於淺層特征和深度特征的特性差異,兩種特征分而治之,深度特征部分加入了數據增強增加訓練樣本數量,用不同label function,淺層特征正樣本更少,深度特征正樣本更多。兩部分響應圖自適應融合,提出了可以同時反映准確性和魯棒性的檢測質量估計方法,基於這個質量評估,最優化方法自適應融合兩部分的響應圖,得到最優的目標定位結果。實驗結果在各個測試集上都是目前最好。 |
創新點 |
ECO+對ECO的核心改進是: 兩種特征區別對待,分而治之,深度特征負責魯棒性,淺層特征負責准確性,兩種檢測響應圖在最后階段自適應融合,目標定位最優化,兼具兩者的優勢。 |
主要框架 |
對ECO的改進,相關濾波+深度特征 |
效果 |
精度: |
代碼 |
沒公布 |
七,Learning Spatial-Aware Regressions for Visual Tracking
八,Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking
論文名稱 |
Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking |
簡介 |
RASNet使用三個attention機制對SiamFC特征的空間和channel進行加權,分解特征提取和判別性分析的耦合,用來提升判別能力。 |
創新點 |
1.作者做的工作的本質就是讓網絡去預測對偶變量。 2.為了增加網絡的判別能力,一個通用的attention似乎並不夠。CF根據每個模板圖像進行學習,得到很好的判別器。作者也模仿這個機制,根據第一幀圖像的feature,使用網絡學習一個動態的attention。 3.能讓網絡學習的就學習,盡量避免在線學習。 4.提出殘差結構,希望殘差學習的部分的均值近似為0。 |
主要框架 |
深度學習框架 |
效果 |
精度: |
代碼 |
沒公布 |