▌Kinetics 數據集的動作分類
- 對於視頻動作分類,作者采用 Kinetics-400 數據集,其中包含約 240k 個訓練視頻數據和20k個驗證數據,共涵蓋400種動作類別。實驗結果得到 Top1 和 Top5 的分類准確性,單條 Slow 網絡與 SlowFast 網絡的性能對比,以及 SlowFast 網絡與 Kibetics-400 數據集上當前最佳模型之間的性能對比,詳細結果如下圖3,圖4,圖5所示。
圖3 Kinetics-400 數據集動作分類結果,包括 top-1 和 top-5 分類准確度,以及計算復雜度 GFLOPs。
圖4 Kinetics-400 數據集上 Slow-only 網絡與 SlowFast 網絡的性能對比;top-1 訓練誤差 (虛線表示) 和驗證誤差 (實線表示)。
圖5 Kinetics-400 數據集上當前最佳模型與 SlowFast 網絡的性能對比。
▌AVA 數據集的動作檢測
- 對於視頻動作檢測,作者采用 AVA 數據集,其中包含有 211k 個訓練數據和 57k 個驗證數據,共涵蓋 60 種動作類別。實驗結果得到 60 個類別的平均精度 mAP 值,SlowFast 網絡與 AVA 數據集上當前最佳模型之間的性能對比,以及 AVA 數據集動作檢測結果的可視化過程,詳細結果如下圖 6,圖 7,圖 8 所示。
圖6 AVA 數據集上每個類別的 AP:Slow-only 模型的 19.0 mAP vs. SlowFast 模型的 24.2 mAP。其中,黑色突出顯示的是絕對增長最高的5個類別,而這里實例化的 SlowFast 網絡並不是最佳的模型。
圖7 AVA 數據集上最佳模型與 SlowFast 網絡的性能對比。其中,++ 表示在測試過程引入了諸如水平翻轉的圖像增強操作。
圖8 可視化 AVA 數據集的動作檢測結果。其中真實的標簽用紅色表示,而 SlowFast 模型在驗證集上的預測結果用綠色表示。