-
論文原稱:Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advancesin neural information processing systems. 2014: 568-576
-
主要貢獻:
1.提出了一個雙流卷積網絡模型,其包括了空間網絡和時間網絡。
2.在有限的數據集上,提出了一個在多幀密集光流幀上有很好效果的模型。(指的還是那個雙流卷積網絡)
3.提出多任務學習,將模型在兩個不同的行為分類數據集上訓練,增加了訓練數據和提高了訓練效果。
-
雙流模型結構
如上圖所示,模型分為兩部分,spatial stream部分以單幀圖片作為輸入,temporal stream 部分以多幀圖像的的光流作為輸入,
兩部分在
經過softmax后進行late fusion。
論文提出了兩種融合方法,一種是采用平均的方式,另一種是訓練一個多分類的SVM分類器,SVM分類器采
用L2-Softmax作為輸入。
3.1 光流卷積網絡
采用L+1幀圖像進行光流計算(這些都是在模型開始之前就計算好了的),得到2L(每2幀圖像可得到一個x方向和y方向的光流)幀,這2L幀
的順序是2k-1為x方向,2k為y方向。(論文對L的取值進行了對比實驗,發現取10比較好)
雙向光流:在t時刻,取t+L /2作為前向流,
t -L/2 作為反向流(這里的反向流在論文里說的是計算相反方向的位移,我不清楚它的意義在
哪,有什么用),這樣得到的還是2L幀。
減去平均流:一般來說兩幀圖片的光流不僅包括了圖片內物體的移動,也包括了相機的移動。但模型只需要對物體的移動流進行訓練,
因此論文提出計算光流的平均值,然后逐點減去這個均值,就避免了相機移動給模型訓練帶來影響。 模型是固定的尺寸:224x224x2L。
(注意這里的L指的是光流,不是原始圖像)
關於去除相機運動帶來的影響,在iDT論文中專門提出了一種方法,而iDT也成為了后來眾多卷積網絡SOTA模型必與之進行效果對比的模型。關於iDT論文的解讀請掃描文末的二維碼關注公眾號(CV技術指南)可看到。
數據集:UCF-101和HMDB-51
4.
多任務訓練
數據集太少會導致過擬合,為了避免這種情況,論文設置了兩個softmax Layer,一個用在UCF-101上,另一個在HMDB-51,它們有各自的loss函數,兩者求和作為訓練的loss。
5.評估
5.1 空間網絡有三種訓練方式:
-
在UCF-101上重新訓練
-
在ILSVRC-2012上預訓練,在UCF-101上finetune。
-
固定預訓練網絡,只訓練最后一層。
最后結果發現第三種方式效果更好。(這里為了防止過擬合,采用了Dropout)
5.2 時間網絡主要測試了不同的L值得到的效果,前文我忽略的軌跡跟蹤方式(感覺沒必要提,不是論文的重點)與光流跟蹤方式的效果對比,以及有無減去平均流的效果對比。
得到的結論:L取10比較好,減去平均流能提高效果,但不明顯,軌跡流跟蹤不及光流效果好
5.3 進行了單向光流和雙向光流的效果對比,采用平均融合與訓練SVM來融合的效果對比,與傳統識別方法的效果對比,以及有無多任務訓練的效果對比
結論:multi-tasks learning是有效果的
結論:對於卷積網絡的融合,采用SVM分類器融合要比取平均的效果更好,雙向光流沒什么效果。(事實證明,真的沒啥用,論文原文說的:using bi-directional flow is not beneficial in the case of ConvNet fusion;)
結論:它比傳統方式識別效果好。
如有錯誤或不合理之處,歡迎在評論中指正。
本文來源於微信公眾號“ CV技術指南 ” 。更多內容與最新技術動態盡在公眾號發布。
歡迎掃描下方二維碼關注公眾號“CV技術指南”,主要進行計算機視覺方向的論文解讀,最新技術跟蹤,以及CV技術的總結。
原創文章第一時間在公眾號中更新,博客只在有空時間才更新少量公眾號文章