論文筆記《Hand Gesture Recognition with 3D Convolutional Neural Networks》


一、概述

  Nvidia提出的一種基於3DCNN的動態手勢識別的方法,主要亮點是提出了一個novel的data augmentation的方法,以及LRN和HRn兩個CNN網絡結合的方式。

  3D的CNN主要是使用了三維的卷積核去處理視頻序列,是視頻分析中常用的方法之一。

  這里是可以識別手語這種動態連續的手勢的。

  

二、亮點

  首先..竟然沒有state of art...

  1、預處理:因為輸入是連續的視頻序列,所以需要對他們進行規范化,這里用nearest neighbor interpolation的方法來刪除或者重復一些frame,來做出一個32frames的視頻序列,然后做了一系列的預處理工作,用sobel算子得到梯度圖啊,downsampling之類的,最后CNN的inputs是 57*125*32大小的梯度圖和深度圖交錯的視頻序列。

  2、分類:用了兩個CNN網絡,hign-resolutin network 和low-resolution network,他們分別有一個參數W,兩個的區別是,第一個就是正常的前面描述的網絡,后面一個是28*62*32的一個input的網絡,最后的結果是兩個預測的成績,這里運用了多空間尺度,所以泛化能力得到了提高。

  3、optimation:cost function用了負的log-likelihood,優化用的是Nesterov accelerated gradient,參數設置的方法也是比較新的..具體名字忘了,反正就是對於防止方差過大有很好的抑制作用。

  4、data augmentation:因為是視頻序列,所以在時間和空間上做了很多操作,具體可以看論文,這個工作是他們的核心,但暫時不是我個人關注的重點,因為我覺得這個從學術上看,只能說是個不錯的trick吧。

三、結論

  兩個網絡的fusion我覺得是個很好的想法,或許以后還有進一步的想象空間,data augmentation也確實是提高泛化能力的一個不錯的方法。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM