行为识别整理


应用领域

  • 智能视频监控;可以做到对场景中的目标进行自动检测、跟踪和识别,以此为基础分析和理解目标的行为,并能够在异常发生时提供有用信息或者及时发出警报,例如公园,商场,银行,火车站,ATM等。
  • 虚拟现实;例如虚拟中的人物动画,3D动画,电源和游戏中的人物打斗,都是基于对人体运动的分析。
  • 人机交互;
  • 运动分析;

方法

IDT(traditional)

  • iDT算法框架主要包含:密集采样特征点,特征轨迹跟踪和基于轨迹的特征提取三个部分。

image-20210415164143888

two-stream

  • 由空间(RGB)和时间(光流)两个维度的网络组成

image-20210415171304454

改进

  • TSN(Temporal Segment Networks),解决对于长时间的视频进行建模的问题。先将视频分成K个部分,然后从每个部分中随机的选出一个短的片段,然后对这个片段应用上述的two-stream方法,最后对于多个片段上提取到的特征做一个融合。

  • 引入DTPP(时间金字塔),聚合由空间和时间线索组成的帧级特征。带来的好处是全局序列感知和多尺度视频级表示。

  • 使用SURF描述符和密集的光流来匹配帧之间的特征点,解决相机的运动对视频的影响。(ICCV2013,Action Recognition with Improved Trajectories)

  • 基于TSN,构建结合光流图、差分图像和并行卷积神经网络的行为识别算法。首先通过分析行为视频中存在的运动模糊现象,设计了一种基于图像特征量的关键帧选取算法,同时构建了一个包含表观信息流和运动信息流的改进时域分割网络,将关键帧 RGB 图像、非关键帧光流图像和差分图像并行地输入特征提取网络计算分类得分,最后将关键帧与非关键帧的行为类别得分进行平均融合后输入 SoftMax 层得到视频类别概率。为进一步降低算法的参数量和计算复杂度,设计了一种轻量化卷积神经网络作为特征提取网络。(2020,基于关键帧的轻量化行为识别方法研究)

  • (1)T-TP3DResNet,双流网络都是采用TP3D ResNet(改进的残差网络),通过TP3D卷积对视频中的行为进行外观和时间域的学习,使用双线性模型进行融合;

    (2)在T-TP3DResNet基础上,加入人体定位网络结构,基于联合多任务学习架构,人体的形态的变化,扩充了人体定位的样本库的多样性,同时借助人体定位,过滤掉了人体周围背景的影响,是的行为识别的处理区域定位到人体周围,两个任务高度相关,相互促进。

    (3)基于C/S架构的人体行为识别的检测平台(2019硕士, 电子科技大学,基于联合深度学习的人体行为检测的研究与实现)

  • 引入注意力机制,区别不同视频帧的重要性。(2018,中科大,基于视频的人类行为识别方法研究)

  • 双流网络中,空间网络中加上LSTM,时间流上用 C3D。(2020,西安科技大学,基于深度学习的行为识别及其在基建现场的应用)

C3D

  • 端到端,三维卷积核
  • 在所有层使用3×3×3的小卷积核效果最好

改进

  • CDC网络,借鉴了FCN的思想。在C3D网络的后面增加了时间维度的上采样操作,做到了帧预测(frame level labeling)。

    • 第一次将卷积、反卷积操作应用到行为检测领域,CDC同时在空间下采样,在时间域上上采样。
    • 利用CDC网络结构可以做到端到端的学习。
    • 通过反卷积操作可以做到帧预测(Per-frame action labeling)。
  • R3D(Region 3-Dimensional Convolution)基于Faster R-CNN和C3D网络思想。对于任意的输入视频L,先进行Proposal,然后用3D-pooling,最后进行分类和回归操作。

    • 可以针对任意长度视频、任意长度行为进行端到端的检测
    • 速度很快(是目前网络的5倍),通过共享Progposal generation 和Classification网络的C3D参数
    • 作者测试了3个不同的数据集,效果都很好,显示了通用性。
  • I3D (CVPR 2017),two-stream和3D conv的结合,速度慢,适用于离线分析。

  • 基于时空特征的协同学习(CVPR2019,协同时空特征学习在视频动作识别中的应用)。通过对可学习的参数施加权重共享约束来协同编码时空特征,共享不同视图的卷积核,协作学习空间和事件。

  • 带BN(Batch Normalization)的C3D,在每个卷积层和完全连接层之后采用批量归一化的C3D。

  • 3D CNN和LSTM结合,对原始视频进行显著性检测,降低网络参数,降低训练难度。

  • (1)KNN和C3D结合,改进的KNN非参数密度算法,高斯滤波,傅里叶变换等。

    (2)改进C3D模型,池化 ,用Dropout。

    (2020,西安科技大学,基于深度学习的人体异常行为检测算法研究)

通用模块

  • 自适应扫描池(AdaScan),自适应地合并视频帧,丢弃非信息性帧。(CVPR2017,AdaScan: Adaptive Scan Pooling in Deep Convolutional Neural Networks for Human Action Recognition in Videos)

  • 针对关键量的框架,对SGD(随机梯度下降)的正向和反向阶段进行了优化。(CVPR2016,A Key Volume Mining Deep Framework for Action Recognition)

  • ARTNet架构,构建了SMART通用组件,使用两个分支单元分别对空间的外观和时间的关系进行建模,外观分支是基于每个帧中像素或滤波器响应的线性组合来实现的,而关系分支是基于像素或多个帧中滤波器响应之间的乘法相互作用来设计的。(2017,Appearance-and-Relation Networks for Video Classification)

  • 交互感知时空金字塔注意网络,将不同尺度的特征图来构建空间金字塔,利用多尺度信息,来过去更准确的注意力得分。(2018,Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification)

  • DRN网络的精准分类效果和Faster-RCNN的融合网络。用DRN的扩张卷积残差块来代替原本一般的卷积层;针对梯度消失和梯度爆炸,每一层前面添加BN层,用三层扩张卷积残差块代替两层残差块。(基于DRN和Faster R-CNN融合模型的行为识别算法)

  • 显著性驱动的最大池化方法,增加特征的时空不变性,考虑部件之间的相关性,用稀疏模型进行特征选择。(2019,华科,视频序列中的人体行为检测识别方法研究)

其他

  • 多模态机器学习
    • 多模态表示学习
    • 模态转化
    • 对齐
    • 多模态融合
    • 协同学习

数据集

UCF101

  • 共包含101类动作。其中每类动作由25个人做动作,每人做4-7组,共13320个视频,分辨率为320*240,共6.5G。

image-20210415171356643

  • HMDB51

  • THUMOS

  • ActivityNet


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM