SST: Single-Stream Temporal Action Proposals
2017-06-11 14:28:00
本文提出一種 時間維度上的 proposal 方法,進行行為的識別。本文方法具有如下的幾個特點:
1. 可以處理 long video sequence,只需要一次前向傳播就可以處理完畢整個video;可以處理任意長度的 video,而不需要處理重疊的時間窗口;
2. 在 proposal generation task 上取得了頂尖的效果;
3. SST proposals 提供了一個較強的基准,進行 temporal action localization,將該方法結合到現有的分類任務中,可以改善分類的性能。
所提出方法的流程圖如下所示:
Technical Approach:
我們所要達到的目標是:在一個 long video 上產生 temporal action proposals。
網絡的幾個重要的部分:
1. Visual Encoder (C3D) 用於編碼 video frame,感知輸入 video ;
2. Seq.Encoder (GRU) 的輸入是 降維后的 C3D feature,設計該模塊的目的是: accumulate evidence across time as the video sequence progresses. 為了能夠更好的產生 good proposals,該模塊應該能夠收集信息直到確定某個動作已經發生了,與此同時,扔掉不相關的背景信息。
Training:
由於行為識別本身就是一個多分類問題,所以這里用到了 交叉熵損失函數來作為最終 loss function。
而總的 loss 就是該 loss 的加和:
數據集提供了裁剪好的 video,所以就是給定 gt 的監督訓練任務,完全可以用反向傳播算法進行訓練。
Reference:
1. Paper: http://vision.stanford.edu/pdf/buch2017cvpr.pdf
2. Github: https://github.com/ranjaykrishna/SST