視頻目標識別是自主駕駛感知、監控、可穿戴設備和物聯網等應用的一項重要任務。由於圖像模糊、遮擋或不尋常的目標姿態,使用視頻數據進行目標識別比使用靜止圖像更具挑戰性。因為目標的外觀可能在某些幀中惡化,通常使用其他幀的特征或檢測來增強預測效果。解決這一問題的方法有很多: 如動態規划、跟蹤、循環神經網絡、有/無光流的特征聚合以跨幀傳播高層特征。有些方法采用稀疏方式進行檢測或特征聚合,從而大大提高推理速度。主流的多幀無光流特征聚合和 Seq-NMS 后處理結合精度最高,但速度較慢(GPU 上小於10 FPS)。在准確率和速度之間需要權衡: 通常更快的方法准確率較低。所以研究兼具准確率和速度的新方法仍然有很大潛力。
視頻目標檢測的方法
- 后處理(Post-Processing)
- 基於跟蹤的方法(Tracking-based Methods)
- 3D卷積(3D Convolutions)
- 循環神經網絡(Recurrent Neural Networks)
- 特征傳播方法(Feature Propagation Methods)
- 基於光流的多幀特征聚合(Multi-frame Feature Aggregation with Optical Flow)
- 無光流的多幀特征聚合(Multi-frame Feature Aggregation without Optical Flow)
后處理(Post-Processing)
后處理方法是通用的過程,可以應用於任何目標檢測器的輸出,以改善視頻中的目標檢測。
序列非極大抑制(Seq-NMS)
論文地址: https://arxiv.org/abs/1602.08465
Seq-NMS 基於“軌跡”上其他檢測通過動態規划對檢測置信度進行修正。在同一視頻段它使用附近幀高得分的目標檢測來提高分數較低的檢測。Seq-NMS 后處理使幀間錯誤檢測或隨機跳躍檢測的數量大大減少,輸出結果穩定,但顯著降低了計算速度。此外,推理變為離線(該方法需要對未來的幀進行處理)。性能結果, FGFA(RFCN,ResNet101):76.3 MAP,1.4 FPS;FGFA(RFCN,ResNet101) + Seq-NMS:78.4 MAP,1.1 FPS。
序列框匹配(Seq-Bbox Matching)
論文地址:https://www.researchgate.net/publication/331783655_Improving_Video_Object_Detection_by_Seq-Bbox_Matching
由於相鄰幀是相似的,通常包含一定數量的運動目標,多個相鄰幀的檢測結果被認為是同一個目標的多個檢測結果(tubulet)。匹配一個 tubulet 的最后一個邊界框和另一個 tubulet 的第一個邊界框。對同一個 tubulet 的邊界框通過平均分類得分進行重新評分。Tubelet 級邊界框鏈接有助於推理漏檢和提高檢測召回率。當稀疏地應用於視頻幀時,該方法顯著地改善了目標檢測器的檢測結果,同時提高了速度。性能結果, YOLOv3: 68.6 MAP,23 FPS;YOLOv3 + 序列框匹配: 78.2/80.9(在線/離線) MAP,38 FPS。
魯棒高效的后處理(REPP / Robust and Efficient Post-Processing)
論文地址:https://arxiv.org/abs/2009.11050
REPP 通過評估幀之間的檢測的相似度來鏈接檢測,並改進它們的分類和定位以抑制假陽性和恢復漏檢。對於來自連續幀(t 和 t + 1)的所有可能的檢測對,基於它們的位置、幾何、外觀和語義構建一組特征。這些特征被用來預測鏈接(相似性)評分。鏈接在連續的幀之間建立,tubelet在第一對幀之間組成,並且只要在下一個幀中仍然能夠找到相應的目標,tubelet就會被擴展。REPP 計算開銷很小,但是推理變為離線。性能結果: YOLOv3:68.6 MAP,23 FPS;YOLOv3 + REPP: 75.1 MAP,22 FPS。
基於跟蹤的方法(Tracking-based Methods)
通過軌跡條件檢測集成目標檢測和跟蹤(Integrated Object Detection and Tracking with Tracklet-Conditioned Detection)
論文地址:https://arxiv.org/abs/1811.11167
軌跡條件(Tracklet-Conditioned)檢測網絡在早期階段將檢測和跟蹤結合在一起: 不再簡單地將檢測器和跟蹤器分別估計的兩組邊界框聚合在一起,而是通過基於目標檢測器的輸出,在先前幀計算的軌跡上生成一組單獨的邊界框。這樣,產生的檢測框既與軌跡一致,又具有高檢測響應,而不是像后期集成技術中只能選兩個中的一個。該模型(使用 R-FCN ResNet101 主干)在 imageenet VID 上在線設置中實現了83.5 MAP。
3D卷積(3D Convolutions)
帶有 3D 卷積的卷積神經網絡在處理如 MRI 等 3D 圖像時已經被證明是非常有用和卓有成效的。與單幀相比,視頻中目標檢測應用 3D 卷積並沒有明顯性能提升。
循環神經網絡(Recurrent Neural Networks)
帶有時間感知特征圖的移動視頻目標檢測(Mobile Video Object Detection with Temporally-Aware Feature Maps)
論文地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Liu_Mobile_Video_Object_CVPR_2018_paper.pdf
該模型將快速的單圖像目標檢測和卷積 LSTM 層結合起來,創建了一個交織的循環卷積結構。一個高效的瓶頸 LSTM 層相比常規 LSTM 顯著降低了計算成本。該模型在線運行,可在低功耗移動設備和嵌入式設備上實時運行,在移動設備上實現了45.1 MAP,14.6 FPS。
搜尋快和慢: 記憶導向的移動視頻目標檢測(Looking Fast and Slow: Memory-Guided Mobile Video Object Detection)
論文地址:https://arxiv.org/pdf/1903.10172.pdf
該模型包含兩個不同速度和識別能力的特征提取器,分別運行在不同的幀上。這些提取器得到的特征以卷積 LSTM 的形式保持場景的共同視覺記憶,通過融合前一幀的上下文和當前幀的要點(一種豐富的表示)來檢測。記憶和要點的組合包含了決定什么時候更新記憶所必需的信息。該模型是在線的,在移動設備上以72.3 FPS 運行,達到59.1 MAP。
特征傳播方法(Feature Propagation Methods)
用於視頻識別的深度特征流(DFF / Deep Feature Flow for Video Recognition)
論文地址:https://arxiv.org/abs/1611.07715
光流(Optical flow)是目前利用視頻目標檢測時間維度的研究最多的領域。DFF 只在稀疏關鍵幀上運行昂貴的卷積子網,並通過流場將其深度特征圖傳播到其他幀。pipeline 函數是 n 幀的循環。第一幀叫做關鍵幀。這是使用目標檢測器檢測的幀。在得到下一個 n-1 幀的光流后,下一個 n-1 幀的檢測就是已知的了,並且周期性重復。由於流計算速度相對較快,DFF 可以顯著提高速度。該模型(使用 R-FCN ResNet101 主干)在 ImageNet VID 上在線模式得到73 MAP,29 FPS。
基於光流的多幀特征聚合(Multi-frame Feature Aggregation with Optical Flow)
提高視頻檢測精度的一種方法是多幀特征融合。有不同的實現方法,但所有方法都圍繞着一個思想: 密集計算每幀檢測,同時特征從相鄰幀向當前幀變換,加權平均聚合。因此,當前幀將受益於之前幀,以及一些未來的幀,以獲得更好的檢測。這種方式可以解決視頻幀的運動和目標裁剪問題。
視頻目標檢測基於流引導的特征聚合(FGFA / Flow-Guided Feature Aggregation for Video Object Detection)
論文地址:https://arxiv.org/abs/1703.10025
流引導的特征聚合使用光流聚合附近幀的特征圖,附近幀通過估計流對齊得很好。結構是一個端到端的框架,它利用了特性層面上的時間一致性。FGFA(R-FCN ResNet101 主干) 在 ImageNet VID 上在線模式達到了76.3 MAP,1.4 FPS。
邁向高性能視頻目標檢測(THP / Towards High Performance Video Object Detection)
論文地址:https://arxiv.org/abs/1711.11577
THP 采用統一的方法,基於多幀特征端到端學習和交叉幀運動原則。該算法采用光流和稀疏遞歸特征聚合的方法保持聚合后的特征質量。此外,它通過只在稀疏關鍵幀上操作來減少計算量。在傳播的特征質量較差的情況下,采用空間自適應部分特征更新算法對非關鍵幀進行特征重計算。在端到端訓練中學習特征質量,進一步提高識別准確率。時間自適應關鍵幀調度算法根據預測的特征質量預測關鍵幀的使用情況,從而提高關鍵幀的使用效率。THP(R-FCN Deformable ResNet101 主干) 在ImageNet VID 在線模式達到了77.8 MAP,22.9 FPS。
無光流的多幀特征聚合(Multi-frame Feature Aggregation without Optical Flow)
視頻目標檢測記憶增強的全局-本地聚合(MEGA / Memory Enhanced Global-Local Aggregation for Video Object Detection)
論文地址:https://arxiv.org/abs/2003.12063
MEGA 通過有效地整合全局和局部信息,增強了關鍵幀的候選框特征。該算法重用了在檢測前幀過程中獲得的預計算特征,這些特征通過全局信息增強,並緩存在遠程記憶模塊中。這就是當前幀和以前幀之間循環連接的構建方式。MEGA(使用 R-FCN ressnet101 主干)在 ImageNet VID上達到了82.9 MAP,8.7 FPS; 具有 Seq-NMS 和 R-FCN ResNeXt101 主干的 MEGA 可以達到85.4 MAP。
為視頻目標檢測挖掘視頻間提議關系(HVRNet / Mining Inter-Video Proposal Relations for Video Object Detection)
論文地址:https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/3764_ECCV_2020_paper.php
HVR-Net 通過在一個多層次的三元組選擇方案中利用視頻內部和視頻間上下文增強視頻目標檢測。根據 CNN 特征的余弦相似度,這個三元組包括一個目標視頻,同一類別中最不相似的視頻,以及不同類別中最相似的視頻。對於三元組中每個視頻,它的采樣幀被輸入到 Faster RCNN 的 RPN 和 ROI 層。這為每幀生成了目標提議(proposal)的特征向量,這些特征向量聚合在一起以增強目標幀中的提議。視頻內部增強的提議主要包含每個視頻中的目標語義,而忽略視頻之間的目標變化。為了建立這種變化的模型,根據內部視頻增強的特征,從視頻三元組中選擇難的提議三元組。對於每個提議三元組,來自支持視頻的提議將被聚合,以提高目標視頻中提議的質量。每個提議特征進一步利用視頻間的依賴性,以解決視頻中的目標混淆。HVRNet (使用 R-FCN ResNet101 主干) 在 ImageNet VID上可以達到83.2 MAP; 擁有 Seq-NMS 和 R-FCN ResNeXt101 主干的 HVRNet 可以得到 state-of-the-art 85.5 MAP。
比較表
mAP @0.5 on Imagenet VID
* 在 MEGA 項目內的實現
** 該方法通過一些小的改動可以在線運行
參考資料
- Seq-NMS:https://arxiv.org/abs/1602.08465 (Python 源碼:https://github.com/lrghust/Seq-NMS)
- Seq-Bbox Matching:https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=2ahUKEwjWwNWa95_iAhUMyoUKHR-GAJwQFjABegQIBBAC&url=http%3A%2F%2Fwww.insticc.org%2FPrimoris%2FResources%2FPaperPdf.ashx%3FidPaper%3D72600&usg=AOvVaw1dTqzUoybpNRVkCdkA1xg0
- REPP:https://arxiv.org/abs/2009.11050 (Python 源碼:https://github.com/AlbertoSabater/Robust-and-efficient-post-processing-for-video-object-detection)
- D&T:https://arxiv.org/abs/1710.03958 (PyTorch 源碼:https://github.com/Feynman27/pytorch-detect-to-track)
- Tracklet-Conditioned Detection:https://arxiv.org/abs/1811.11167
- Mobile Video Object Detection:https://arxiv.org/abs/1711.06368 (PyTorch 源碼:https://github.com/vikrant7/mobile-vod-bottleneck-lstm)
- Looking Fast and Slow:https://arxiv.org/abs/1903.10172 (PyTorch 源碼:https://github.com/vikrant7/pytorch-looking-fast-and-slow)
- ST-lattice:https://arxiv.org/abs/1804.05472
- FGFA:https://arxiv.org/abs/1703.10025 (MXNet 源碼:https://github.com/msracver/Flow-Guided-Feature-Aggregation, PyTorch* 源碼:https://github.com/Scalsol/mega.pytorch)
- THP:https://arxiv.org/abs/1711.11577 (TensorFlow 源碼:https://github.com/stanlee321/LightFlow-TensorFlow)
- MANet:http://openaccess.thecvf.com/content_ECCV_2018/html/Shiyao_Wang_Fully_Motion-Aware_Network_ECCV_2018_paper.html (MXNet 源碼:https://github.com/wangshy31/MANet_for_Video_Object_Detection)
- SELSA:https://arxiv.org/abs/1907.06390 (MXNet 源碼:https://github.com/happywu/Sequence-Level-Semantics-Aggregation)
- OGEMN:https://www.semanticscholar.org/paper/Object-Guided-External-Memory-Network-for-Video-Deng-Hua/d998d202fde50839b0bc3bbdc4324e3054b87919
- RDN:https://arxiv.org/abs/1908.09511 (PyTorch* 源碼:https://github.com/Scalsol/mega.pytorch)
- STMN:https://arxiv.org/abs/1712.06317 (Torch 7 源碼:http://fanyix.cs.ucdavis.edu/project/stmn/project.html)
- STSN:https://arxiv.org/abs/1803.05549
- MEGA:https://arxiv.org/abs/2003.12063 (PyTorch 源碼:https://github.com/Scalsol/mega.pytorch)
- HVRNet:https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/3764_ECCV_2020_paper.php (即將開源: https://github.com/youthHan/HVRNet)
來源:
https://blog.usejournal.com/the-ultimate-guide-to-video-object-detection-2ecf9459f180