論文筆記《Hand Gesture Recognition with 3D Convolutional Neural Networks》

本文轉載自查看原文 2016-08-25 17:33 2955 深度學習/ 手勢識別

一、概述

　　Nvidia提出的一種基於3DCNN的動態手勢識別的方法，主要亮點是提出了一個novel的data augmentation的方法，以及LRN和HRn兩個CNN網絡結合的方式。

　　3D的CNN主要是使用了三維的卷積核去處理視頻序列，是視頻分析中常用的方法之一。

　　這里是可以識別手語這種動態連續的手勢的。

二、亮點

　　首先..竟然沒有state of art...

　　1、預處理：因為輸入是連續的視頻序列，所以需要對他們進行規范化，這里用nearest neighbor interpolation的方法來刪除或者重復一些frame，來做出一個32frames的視頻序列，然后做了一系列的預處理工作，用sobel算子得到梯度圖啊，downsampling之類的，最后CNN的inputs是 57*125*32大小的梯度圖和深度圖交錯的視頻序列。

　　2、分類：用了兩個CNN網絡，hign-resolutin network 和low-resolution network，他們分別有一個參數W，兩個的區別是，第一個就是正常的前面描述的網絡，后面一個是28*62*32的一個input的網絡，最后的結果是兩個預測的成績，這里運用了多空間尺度，所以泛化能力得到了提高。

　　3、optimation：cost function用了負的log-likelihood，優化用的是Nesterov accelerated gradient，參數設置的方法也是比較新的..具體名字忘了，反正就是對於防止方差過大有很好的抑制作用。

　　4、data augmentation：因為是視頻序列，所以在時間和空間上做了很多操作，具體可以看論文，這個工作是他們的核心，但暫時不是我個人關注的重點，因為我覺得這個從學術上看，只能說是個不錯的trick吧。

三、結論

　　兩個網絡的fusion我覺得是個很好的想法，或許以后還有進一步的想象空間，data augmentation也確實是提高泛化能力的一個不錯的方法。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文筆記《Notes on convolutional neural networks》【論文筆記】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition 論文筆記：Emotion Recognition From Speech With Recurrent Neural Networks 【論文筆記】Learning Convolutional Neural Networks for Graphs 論文筆記：（2019CVPR）PointConv: Deep Convolutional Networks on 3D Point Clouds 基於3D卷積神經網絡的行為識別：3D Convolutional Neural Networks for Human Action Recognition 【論文筆記】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition 論文筆記：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 論文筆記：《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks DeepLearning 》論文筆記：Diffusion-Convolutional Neural Networks （傳播-卷積神經網絡）