一、概述
Nvidia提出的一種基於3DCNN的動態手勢識別的方法,主要亮點是提出了一個novel的data augmentation的方法,以及LRN和HRn兩個CNN網絡結合的方式。
3D的CNN主要是使用了三維的卷積核去處理視頻序列,是視頻分析中常用的方法之一。
這里是可以識別手語這種動態連續的手勢的。

二、亮點
首先..竟然沒有state of art...
1、預處理:因為輸入是連續的視頻序列,所以需要對他們進行規范化,這里用nearest neighbor interpolation的方法來刪除或者重復一些frame,來做出一個32frames的視頻序列,然后做了一系列的預處理工作,用sobel算子得到梯度圖啊,downsampling之類的,最后CNN的inputs是 57*125*32大小的梯度圖和深度圖交錯的視頻序列。
2、分類:用了兩個CNN網絡,hign-resolutin network 和low-resolution network,他們分別有一個參數W,兩個的區別是,第一個就是正常的前面描述的網絡,后面一個是28*62*32的一個input的網絡,最后的結果是兩個預測的成績,這里運用了多空間尺度,所以泛化能力得到了提高。
3、optimation:cost function用了負的log-likelihood,優化用的是Nesterov accelerated gradient,參數設置的方法也是比較新的..具體名字忘了,反正就是對於防止方差過大有很好的抑制作用。
4、data augmentation:因為是視頻序列,所以在時間和空間上做了很多操作,具體可以看論文,這個工作是他們的核心,但暫時不是我個人關注的重點,因為我覺得這個從學術上看,只能說是個不錯的trick吧。
三、結論
兩個網絡的fusion我覺得是個很好的想法,或許以后還有進一步的想象空間,data augmentation也確實是提高泛化能力的一個不錯的方法。
