SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines

本文轉載自查看原文 2020-06-18 16:39 607

SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines

2020-06-18 16:37:32

Paper: https://arxiv.org/pdf/1911.06188v4.pdf

Code: https://github.com/MegviiDetection/video_analyst

1. Background and Motivation:

作者提出如下幾個方面的引導，來設計新的孿生網絡進行跟蹤：

G1. Decomposition of classification and state estimation.

G2. Non-ambiguous scoring.

G3. Prior knowledge-free.

G4. Estimation quality assessment.

2. The Proposed Method:

2.1. Siamese-based Feature Extraction and Matching:

這里作者采用了 Siamese network 來分別提取 template 和 search image 的特征，並且計算其相似性。用兩個分支，classification 和 regression branch 來得到兩組特征。

2.2. Application of Design Guidelines in Head Network:

本文服從 G1，設計了兩個分支，一個是 regression；一個是 classification。Classification 分支是用於大致定位，而 Regression 分支則是為了得到更加准確地 BBox 位置信息。這部分網絡的設計有點借鑒 FCOS 物體檢測方法。

特征圖上每一個位置 (x, y) 都對應了一個圖像區域。服從 G2，作者直接分類對應的 image patch 和回歸目標矩形框。換句話說，本文所提出的 SiamFC++ 可以直接將位置看做是訓練樣本。本文方法直接拓展了 anchor 的約束，屬於 anchor-free 的方法。所以，本文的方法並沒有利用目標數據分布的先驗信息，例如 scale/ratio。這樣就符合准則 G3了。

作者根據前人的工作得出如下的結論：分類的得分，並沒有和定位的准確度很好地對應。作者采用了這種中心先驗的做法，並且服從 G4，添加了一個簡單但是有效的 quality assessment branch 來進行跟蹤效果評估。該輸出可以去預測先驗空間得分（the Prior Spatial Score, PSS），定義如下：

注意到，這里的 PSS 並不是質量估計唯一的選擇。另外，作者也預測了得到的 BBox 和真值的 IoU：

2.3. Training Objective：

3. Experiments：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Towards Accurate Multi-person Pose Estimation in the Wild 論文閱讀 Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking TransPose: Towards Explainable Human Pose Estimation by Transformer 論文閱讀之：Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space 論文筆記：ATOM: Accurate Tracking by Overlap Maximization ‘Skimming-Perusal’ Tracking: A Framework for Real-Time and Robust Long-term Tracking Toward fast and accurate human pose estimation via soft-gated skip connections （轉）CVPR 2016 Visual Tracking Paper Review Correlation Filter in Visual Tracking系列一：Visual Object Tracking using Adaptive Correlation Filters 論文筆記埋點（Event Tracking）vs 無埋點（Codeless Tracking） vs 可視化埋點（Visual Event Tracking）