Temporal Segment Networks


  • 摘要

    • 解決問題

      • 用CNN框架有效提取video長時序特征

      • 在UCF101等訓練集受限的情況下訓練網絡

    • 貢獻

      • TSN網絡,基於長時間時序結構模型。稀疏時序采樣策略,視頻層監督有效學習整個視頻。

      • HMDB51(69.4%),UCF101(94.2%)

  • 介紹

    • 動作識別有兩個重要和補充的方面

      • appearance和dynamic

      • 是否有效提取了特征並充分利用了相關信息

      • 難點:image classification的難點。提取有效特征避開這些challenge並保留分類信息

    • CNN的局限

      • CNN網絡關注於appearance和短時的motion,缺少處理長時間結構的能力

      • 目前密集間隔采樣CNN方法嘗試處理video

        • 長時間視頻的計算量大,不能實時應用

        • 由於網絡固定幀數的限制,視頻過長會丟失重要信息

        • 需要大量的訓練集,然而目前公開數據集在大小和多樣性上受限很大,過擬合的風險

    • TSN

      • 在雙流的基礎上采用稀疏采樣:k=7或9更好,不是論文中的3

        • 連續幀有高度的冗余性相似性,密集采樣是不需要的

        • 省時,省計算

        • 不受幀長限制可以學習整個視頻

      • 數據處理

        • 多種輸入形式預訓練:單一rgb,疊加rgb,疊加光流場,疊加形變光流場

        • 正則化

        • 數據增強

    • CNN for Action Recognition

      • 深度CNN   Karpathy

      • 雙流網絡 appearance + motion 缺點:單幀,短時間多幀,復雜運動及跨時間多階段動作很難處理

      • C3D   Tran

      • 64-120固定幀,對長時序視頻建模(受限於固定長度的幀,不能處理過長的整個視頻,提取全局信息)
    • 時序結構模型

      • ASM 標注視頻的原子動作

      • 隱變量做復雜動作的時域分解,迭代方法隱SVM學習模型參數

      • LHM SGM 分層模型和分割模型

      • SSM 序列骨架模型

      • bag of visual words 視覺詞袋模型

      • (都不是端到端的模型)

  • BN-Inception 結合 雙流網絡

    • TSN在雙流上改進

      • 雙流的缺陷:空域-RGB單幀,時域-短的snippet堆疊幀的輸入使得 

        • 無法處理長時序結構
        • 復雜運動及跨時間多階段動作很難處理
  •  

  • 對一個視頻,切分為K 個等長片段 {S1, S2, · · · , SK},從每一個片段中隨機抽取一個短的snippet,過雙流,不同snippet的分類得分通過片段聚合函數聚合成最后的視頻分類的得分,雙流融合產生最后的結果

  • T表示不同snippet,F表示CNN雙流提特征,G是融合函數,H是softmax

  • Loss:,標准類別交叉熵損失

     

  • 聚合函數
    • 平均 (最好) 對所有snippet的屬於同一類別的得分做個均值
    • 取最大
    • 加權平均

提特征的參數W的導數可以看出,tsn網絡的是從視頻整體進行參數學習,不是針對特定某個短的snippet。 

網絡結構:

   BN-Inception作為雙流的基礎結構,RGB:一張rgb圖,光流:堆疊的光流場

幾種策略減少訓練時過擬合

1  跨模態pretrain: 

   rgb直接用imageNet就好,光流的數據分布明顯不同,不能直接用rgb model pretrain optical flow model.

   先線性變換,將光流離散化為0-255,修改第一個卷積層的權重,rgb通道的權重取平均后沿着光流通道數復制,從而初始化光流網絡。

2 partial BN正則化: 

   bn,估計batch數據中的均值和方差,從而將激活值轉化為標准化正太分布,加速模型收斂,由於數據量的原因可能導致過擬合,所以實驗采用,除了第一層, freeze 其他層 BN 中的 mean 和 variance 參數。

   在全局池化后面加了dropout

3 數據增廣

   random cropping, horizontal flipping

   New:  corner cropping and scalejittering

    4 corners and 1 center 防止過於關注圖片中心區域。

    先將rgb或光流resize到256×340,長寬在{256, 224, 192, 168}中隨機選,crop后resize到224 × 224,送入網絡訓練

 修改版Caffe和OpenMPI,多卡並行加速訓練,4塊TITANX,訓練時間UCF101 is around 2 hours for spatial TSNs and 9 hours for temporal TSNs。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM