Motivation:減少時空網絡的計算量,保持視頻分類精度的基礎上,使速度盡可能接近對應網絡的2D版本。
為此提出 Multi-Fiber 網絡,將復雜網絡拆分成輕量網絡的集成,利用 fibers 間的信息流引入多路器模塊。
Result:比I3D和R(2+1)D分別少9倍,13倍的計算量,但精度更高,UCF-101, HMDB-51 and Kinetics 上的 state of the art。
2D網絡需要10s GFLOP來處理單幀,3D網絡需要100s GFLOP處理一個clip,作者認為3D網絡有能力進一步提高因為融入了時空信息。
3D卷積開銷很大,與Du tran和Xie Saining提出的R(2+1)D和S3D用1x3x3, 3x1x1時空分解卷積替代3x3x3這種做法不同,因為相對其2D版本仍有數量級的復雜度,以上兩種方法很難在實際應用,受low-power MobileNet-v2網絡的啟發以及通過分組卷積稀疏化做法的啟發,作者提出稀疏連接結構,並在2D CNN圖片分類上實驗確認結構的有效性,后擴展為時空CNN。
(a) resnet block (b) resNeXt block (c) fibers(author) (d) 加入multiplexer 傳遞不同fiber間信息 (e) 兩個線性層降維和升維
resNeXt的中間模塊對通道分組后分別用3x3卷積,bottleneck結構+分組卷積會很大程度降低計算量。d中可以看出去除了對整個通道的1x1卷積(全連接),引入了multiplexer層彌補信息損失,將主干feature的channel全部分組后,平行的殘差計算,其中每一個分支稱為(fiber)
resnet兩個conv的簡化連接數計算,其中Min表示輸入channel,Mmid,Mout等同:
如果這個運算單元channel的維數增加k倍,那么運算量將增加K的平方倍。反之,減小也是2次的減小。
對channel切分為N個並行且獨立的模塊后,總的簡化連接的數量,可見是直接resnet模塊的1/N倍,實驗中N=16。
Multi-Fiber Networks
2D圖片域的驗證:
1. 基於ResNet-18和MobileNet-v2的baseline,將其中的模塊替換為多纖維模塊
2. 重新設計了一個2D MF-Net
可以看出,Multi-Fiber結構在ResNet-18和MobileNet-v2上可以在少量降低計算量和參數量的情況下,精度上有一定提高,表明模塊的有效性。而MF-Net也在參數和計算量較低的情況下達到了不錯的效果。最后一欄實驗則表明了Multiplexer模塊大概會占據30%的計算量,但對效果的提升也是比較明顯的。
3D版本
為了降低計算量,兩層卷積只有一層進行了時序上的卷積
UCF101和HMDB51上的結果
Kinetics分類結果分析
在400類中有190類准確率超過80%,349類超過50%。只有17類低於30%效果糟糕。
特別的是那些准確率高的類,其特點:
1. 相對別的類有特殊的物體/背景
2. 跨越較長時間所發生的特殊動作
識別不好的類,其特點:
通常沒有可區分的物體或在長視頻中目標動作持續很短
部分參考自:
知乎林天威