用於視頻行為識別的雙流卷積網絡


  1. 論文原稱:Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advancesin neural information processing systems. 2014: 568-576

  2. 主要貢獻

    1.提出了一個雙流卷積網絡模型,其包括了空間網絡和時間網絡。

    2.在有限的數據集上,提出了一個在多幀密集光流幀上有很好效果的模型。(指的還是那個雙流卷積網絡)

    3.提出多任務學習,將模型在兩個不同的行為分類數據集上訓練,增加了訓練數據和提高了訓練效果。

  3. 雙流模型結構

  

如上圖所示,模型分為兩部分,spatial stream部分以單幀圖片作為輸入,temporal stream 部分以多幀圖像的的光流作為輸入,兩部分在經過softmax后進行late fusion。論文提出了兩種融合方法,一種是采用平均的方式,另一種是訓練一個多分類的SVM分類器,SVM分類器采用L2-Softmax作為輸入。

3.1 光流卷積網絡

  采用L+1幀圖像進行光流計算(這些都是在模型開始之前就計算好了的),得到2L(每2幀圖像可得到一個x方向和y方向的光流)幀,這2L幀的順序是2k-1為x方向,2k為y方向。(論文對L的取值進行了對比實驗,發現取10比較好)

  雙向光流:在t時刻,取t+L /2作為前向流,t -L/2 作為反向流(這里的反向流在論文里說的是計算相反方向的位移,我不清楚它的意義在哪,有什么用),這樣得到的還是2L幀。 

  減去平均流:一般來說兩幀圖片的光流不僅包括了圖片內物體的移動,也包括了相機的移動。但模型只需要對物體的移動流進行訓練,因此論文提出計算光流的平均值,然后逐點減去這個均值,就避免了相機移動給模型訓練帶來影響。 模型是固定的尺寸:224x224x2L。(注意這里的L指的是光流,不是原始圖像)

關於去除相機運動帶來的影響,在iDT論文中專門提出了一種方法,而iDT也成為了后來眾多卷積網絡SOTA模型必與之進行效果對比的模型。關於iDT論文的解讀請掃描文末的二維碼關注公眾號(CV技術指南)可看到。

數據集:UCF-101和HMDB-51

  4.多任務訓練 

    數據集太少會導致過擬合,為了避免這種情況,論文設置了兩個softmax Layer,一個用在UCF-101上,另一個在HMDB-51,它們有各自的loss函數,兩者求和作為訓練的loss。

  5.評估

  5.1 空間網絡有三種訓練方式:

  • 在UCF-101上重新訓練

  • 在ILSVRC-2012上預訓練,在UCF-101上finetune。

  • 固定預訓練網絡,只訓練最后一層。

最后結果發現第三種方式效果更好。(這里為了防止過擬合,采用了Dropout)

  5.2 時間網絡主要測試了不同的L值得到的效果,前文我忽略的軌跡跟蹤方式(感覺沒必要提,不是論文的重點)與光流跟蹤方式的效果對比,以及有無減去平均流的效果對比。

  得到的結論:L取10比較好,減去平均流能提高效果,但不明顯,軌跡流跟蹤不及光流效果好

5.3 進行了單向光流和雙向光流的效果對比,采用平均融合與訓練SVM來融合的效果對比,與傳統識別方法的效果對比,以及有無多任務訓練的效果對比

結論:multi-tasks learning是有效果的

結論:對於卷積網絡的融合,采用SVM分類器融合要比取平均的效果更好,雙向光流沒什么效果。(事實證明,真的沒啥用,論文原文說的:using bi-directional flow is not beneficial in the case of ConvNet fusion;)

結論:它比傳統方式識別效果好。

如有錯誤或不合理之處,歡迎在評論中指正。

本文來源於微信公眾號“ CV技術指南 ” 。更多內容與最新技術動態盡在公眾號發布。

歡迎掃描下方二維碼關注公眾號“CV技術指南”,主要進行計算機視覺方向的論文解讀,最新技術跟蹤,以及CV技術的總結。

原創文章第一時間在公眾號中更新,博客只在有空時間才更新少量公眾號文章

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM