SlowFast Networks for Video Recognition


▌Kinetics 數據集的動作分類

  • 對於視頻動作分類,作者采用 Kinetics-400 數據集,其中包含約 240k 個訓練視頻數據和20k個驗證數據,共涵蓋400種動作類別。實驗結果得到 Top1 和 Top5 的分類准確性,單條 Slow 網絡與 SlowFast 網絡的性能對比,以及 SlowFast 網絡與 Kibetics-400 數據集上當前最佳模型之間的性能對比,詳細結果如下圖3,圖4,圖5所示。

圖3 Kinetics-400 數據集動作分類結果,包括 top-1 和 top-5 分類准確度,以及計算復雜度 GFLOPs。

圖4 Kinetics-400 數據集上 Slow-only 網絡與 SlowFast 網絡的性能對比;top-1 訓練誤差 (虛線表示) 和驗證誤差 (實線表示)。

圖5 Kinetics-400 數據集上當前最佳模型與 SlowFast 網絡的性能對比。

▌AVA 數據集的動作檢測

  • 對於視頻動作檢測,作者采用 AVA 數據集,其中包含有 211k 個訓練數據和 57k 個驗證數據,共涵蓋 60 種動作類別。實驗結果得到 60 個類別的平均精度 mAP 值,SlowFast 網絡與 AVA 數據集上當前最佳模型之間的性能對比,以及 AVA 數據集動作檢測結果的可視化過程,詳細結果如下圖 6,圖 7,圖 8 所示。

圖6 AVA 數據集上每個類別的 AP:Slow-only 模型的 19.0 mAP vs. SlowFast 模型的 24.2 mAP。其中,黑色突出顯示的是絕對增長最高的5個類別,而這里實例化的 SlowFast 網絡並不是最佳的模型。

圖7 AVA 數據集上最佳模型與 SlowFast 網絡的性能對比。其中,++ 表示在測試過程引入了諸如水平翻轉的圖像增強操作。

圖8 可視化 AVA 數據集的動作檢測結果。其中真實的標簽用紅色表示,而 SlowFast 模型在驗證集上的預測結果用綠色表示。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM