-
摘要
-
解決問題
-
用CNN框架有效提取video長時序特征
-
在UCF101等訓練集受限的情況下訓練網絡
-
貢獻
-
TSN網絡,基於長時間時序結構模型。稀疏時序采樣策略,視頻層監督有效學習整個視頻。
-
HMDB51(69.4%),UCF101(94.2%)
-
介紹
-
動作識別有兩個重要和補充的方面
-
appearance和dynamic
-
是否有效提取了特征並充分利用了相關信息
-
難點:image classification的難點。提取有效特征避開這些challenge並保留分類信息
-
CNN的局限
-
CNN網絡關注於appearance和短時的motion,缺少處理長時間結構的能力
-
目前密集間隔采樣CNN方法嘗試處理video
-
長時間視頻的計算量大,不能實時應用
-
由於網絡固定幀數的限制,視頻過長會丟失重要信息
-
需要大量的訓練集,然而目前公開數據集在大小和多樣性上受限很大,過擬合的風險
-
TSN
-
在雙流的基礎上采用稀疏采樣:k=7或9更好,不是論文中的3
-
連續幀有高度的冗余性相似性,密集采樣是不需要的
-
省時,省計算
-
不受幀長限制可以學習整個視頻
-
數據處理
-
多種輸入形式預訓練:單一rgb,疊加rgb,疊加光流場,疊加形變光流場
-
正則化
-
數據增強
-
CNN for Action Recognition
-
深度CNN Karpathy
-
雙流網絡 appearance + motion 缺點:單幀,短時間多幀,復雜運動及跨時間多階段動作很難處理
-
C3D Tran
- 64-120固定幀,對長時序視頻建模(受限於固定長度的幀,不能處理過長的整個視頻,提取全局信息)
-
時序結構模型
-
ASM 標注視頻的原子動作
-
隱變量做復雜動作的時域分解,迭代方法隱SVM學習模型參數
-
LHM SGM 分層模型和分割模型
-
SSM 序列骨架模型
-
bag of visual words 視覺詞袋模型
-
(都不是端到端的模型)
-
BN-Inception 結合 雙流網絡
-
-
TSN在雙流上改進
-
雙流的缺陷:空域-RGB單幀,時域-短的snippet堆疊幀的輸入使得
- 無法處理長時序結構
- 復雜運動及跨時間多階段動作很難處理
-
-
對一個視頻,切分為K 個等長片段 {S1, S2, · · · , SK},從每一個片段中隨機抽取一個短的snippet,過雙流,不同snippet的分類得分通過片段聚合函數聚合成最后的視頻分類的得分,雙流融合產生最后的結果
T表示不同snippet,F表示CNN雙流提特征,G是融合函數,H是softmax
- Loss:
,標准類別交叉熵損失
- 聚合函數
- 平均 (最好) 對所有snippet的屬於同一類別的得分做個均值
- 取最大
- 加權平均
提特征的參數W的導數可以看出,tsn網絡的是從視頻整體進行參數學習,不是針對特定某個短的snippet。
網絡結構:
BN-Inception作為雙流的基礎結構,RGB:一張rgb圖,光流:堆疊的光流場
幾種策略減少訓練時過擬合
1 跨模態pretrain:
rgb直接用imageNet就好,光流的數據分布明顯不同,不能直接用rgb model pretrain optical flow model.
先線性變換,將光流離散化為0-255,修改第一個卷積層的權重,rgb通道的權重取平均后沿着光流通道數復制,從而初始化光流網絡。
2 partial BN正則化:
bn,估計batch數據中的均值和方差,從而將激活值轉化為標准化正太分布,加速模型收斂,由於數據量的原因可能導致過擬合,所以實驗采用,除了第一層, freeze 其他層 BN 中的 mean 和 variance 參數。
在全局池化后面加了dropout
3 數據增廣
random cropping, horizontal flipping
New: corner cropping and scalejittering
4 corners and 1 center 防止過於關注圖片中心區域。
先將rgb或光流resize到256×340,長寬在{256, 224, 192, 168}中隨機選,crop后resize到224 × 224,送入網絡訓練
修改版Caffe和OpenMPI,多卡並行加速訓練,4塊TITANX,訓練時間UCF101 is around 2 hours for spatial TSNs and 9 hours for temporal TSNs。