用於視頻行為識別的雙流卷積網絡

本文轉載自查看原文 2020-10-08 19:00 979

論文原稱：Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advancesin neural information processing systems. 2014: 568-576
主要貢獻：

1.提出了一個雙流卷積網絡模型，其包括了空間網絡和時間網絡。

2.在有限的數據集上，提出了一個在多幀密集光流幀上有很好效果的模型。（指的還是那個雙流卷積網絡）

3.提出多任務學習，將模型在兩個不同的行為分類數據集上訓練，增加了訓練數據和提高了訓練效果。
雙流模型結構

如上圖所示，模型分為兩部分，spatial stream部分以單幀圖片作為輸入，temporal stream 部分以多幀圖像的的光流作為輸入，兩部分在經過softmax后進行late fusion。論文提出了兩種融合方法，一種是采用平均的方式，另一種是訓練一個多分類的SVM分類器，SVM分類器采用L2-Softmax作為輸入。

3.1 光流卷積網絡

　　采用L+1幀圖像進行光流計算（這些都是在模型開始之前就計算好了的），得到2L（每2幀圖像可得到一個x方向和y方向的光流）幀，這2L幀的順序是2k-1為x方向，2k為y方向。（論文對L的取值進行了對比實驗，發現取10比較好）

　　雙向光流：在t時刻，取t+L /2作為前向流，t -L/2 作為反向流（這里的反向流在論文里說的是計算相反方向的位移，我不清楚它的意義在哪，有什么用），這樣得到的還是2L幀。

　　減去平均流：一般來說兩幀圖片的光流不僅包括了圖片內物體的移動，也包括了相機的移動。但模型只需要對物體的移動流進行訓練，因此論文提出計算光流的平均值，然后逐點減去這個均值，就避免了相機移動給模型訓練帶來影響。模型是固定的尺寸：224x224x2L。（注意這里的L指的是光流，不是原始圖像）

關於去除相機運動帶來的影響，在iDT論文中專門提出了一種方法，而iDT也成為了后來眾多卷積網絡SOTA模型必與之進行效果對比的模型。關於iDT論文的解讀請掃描文末的二維碼關注公眾號（CV技術指南）可看到。

數據集：UCF-101和HMDB-51

　　4.多任務訓練

　　　　數據集太少會導致過擬合，為了避免這種情況，論文設置了兩個softmax Layer,一個用在UCF-101上，另一個在HMDB-51，它們有各自的loss函數，兩者求和作為訓練的loss。

　　5.評估

　　5.1 空間網絡有三種訓練方式：

在UCF-101上重新訓練
在ILSVRC-2012上預訓練，在UCF-101上finetune。
固定預訓練網絡，只訓練最后一層。

最后結果發現第三種方式效果更好。（這里為了防止過擬合，采用了Dropout）

　　5.2 時間網絡主要測試了不同的L值得到的效果，前文我忽略的軌跡跟蹤方式（感覺沒必要提，不是論文的重點）與光流跟蹤方式的效果對比，以及有無減去平均流的效果對比。

  得到的結論：L取10比較好，減去平均流能提高效果，但不明顯，軌跡流跟蹤不及光流效果好

5.3 進行了單向光流和雙向光流的效果對比，采用平均融合與訓練SVM來融合的效果對比，與傳統識別方法的效果對比，以及有無多任務訓練的效果對比

結論：multi-tasks learning是有效果的

結論：對於卷積網絡的融合，采用SVM分類器融合要比取平均的效果更好，雙向光流沒什么效果。（事實證明，真的沒啥用，論文原文說的：using bi-directional flow is not beneficial in the case of ConvNet fusion;）

結論：它比傳統方式識別效果好。

如有錯誤或不合理之處，歡迎在評論中指正。

本文來源於微信公眾號“ CV技術指南 ” 。更多內容與最新技術動態盡在公眾號發布。

歡迎掃描下方二維碼關注公眾號“CV技術指南”，主要進行計算機視覺方向的論文解讀，最新技術跟蹤，以及CV技術的總結。

原創文章第一時間在公眾號中更新，博客只在有空時間才更新少量公眾號文章

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 基於3D卷積神經網絡的行為識別：3D Convolutional Neural Networks for Human Action Recognition 視頻識別動作識別實時異常行為識別等所有行為識別卷積神經網絡識別Mnist圖片 CNN卷積神經網絡人臉識別手寫數字圖片識別-卷積神經網絡 tensorflow卷積神經網絡與手寫字識別使用卷積神經網絡識別交通標志卷積神經網絡（CNN）學習算法之----基於LeNet網絡的中文驗證碼識別吳裕雄 python 神經網絡——TensorFlow 卷積神經網絡水果圖片識別神經網絡模型（二）— 卷積神經網絡用於知識圖譜嵌入（ConvE、ConvKB、R-GCN、ConvR）