應用領域

智能視頻監控；可以做到對場景中的目標進行自動檢測、跟蹤和識別，以此為基礎分析和理解目標的行為，並能夠在異常發生時提供有用信息或者及時發出警報，例如公園，商場，銀行，火車站，ATM等。
虛擬現實；例如虛擬中的人物動畫，3D動畫，電源和游戲中的人物打斗，都是基於對人體運動的分析。
人機交互；
運動分析；

方法

IDT（traditional）

iDT算法框架主要包含：密集采樣特征點，特征軌跡跟蹤和基於軌跡的特征提取三個部分。

two-stream

由空間(RGB)和時間(光流)兩個維度的網絡組成

改進

TSN（Temporal Segment Networks），解決對於長時間的視頻進行建模的問題。先將視頻分成K個部分，然后從每個部分中隨機的選出一個短的片段，然后對這個片段應用上述的two-stream方法，最后對於多個片段上提取到的特征做一個融合。
引入DTPP（時間金字塔），聚合由空間和時間線索組成的幀級特征。帶來的好處是全局序列感知和多尺度視頻級表示。
使用SURF描述符和密集的光流來匹配幀之間的特征點，解決相機的運動對視頻的影響。（ICCV2013，Action Recognition with Improved Trajectories）
基於TSN，構建結合光流圖、差分圖像和並行卷積神經網絡的行為識別算法。首先通過分析行為視頻中存在的運動模糊現象，設計了一種基於圖像特征量的關鍵幀選取算法，同時構建了一個包含表觀信息流和運動信息流的改進時域分割網絡，將關鍵幀 RGB 圖像、非關鍵幀光流圖像和差分圖像並行地輸入特征提取網絡計算分類得分，最后將關鍵幀與非關鍵幀的行為類別得分進行平均融合后輸入 SoftMax 層得到視頻類別概率。為進一步降低算法的參數量和計算復雜度，設計了一種輕量化卷積神經網絡作為特征提取網絡。（2020，基於關鍵幀的輕量化行為識別方法研究）
（1）T-TP3DResNet,雙流網絡都是采用TP3D ResNet（改進的殘差網絡），通過TP3D卷積對視頻中的行為進行外觀和時間域的學習，使用雙線性模型進行融合；

（2）在T-TP3DResNet基礎上，加入人體定位網絡結構，基於聯合多任務學習架構，人體的形態的變化，擴充了人體定位的樣本庫的多樣性，同時借助人體定位，過濾掉了人體周圍背景的影響，是的行為識別的處理區域定位到人體周圍，兩個任務高度相關，相互促進。

（3）基於C/S架構的人體行為識別的檢測平台（2019碩士，電子科技大學，基於聯合深度學習的人體行為檢測的研究與實現）
引入注意力機制，區別不同視頻幀的重要性。（2018，中科大，基於視頻的人類行為識別方法研究）
雙流網絡中，空間網絡中加上LSTM，時間流上用 C3D。（2020，西安科技大學，基於深度學習的行為識別及其在基建現場的應用）

C3D

端到端，三維卷積核
在所有層使用3×3×3的小卷積核效果最好

改進

CDC網絡，借鑒了FCN的思想。在C3D網絡的后面增加了時間維度的上采樣操作，做到了幀預測(frame level labeling)。
- 第一次將卷積、反卷積操作應用到行為檢測領域，CDC同時在空間下采樣，在時間域上上采樣。
- 利用CDC網絡結構可以做到端到端的學習。
- 通過反卷積操作可以做到幀預測(Per-frame action labeling)。
R3D（Region 3-Dimensional Convolution）基於Faster R-CNN和C3D網絡思想。對於任意的輸入視頻L，先進行Proposal，然后用3D-pooling，最后進行分類和回歸操作。
- 可以針對任意長度視頻、任意長度行為進行端到端的檢測
- 速度很快(是目前網絡的5倍)，通過共享Progposal generation 和Classification網絡的C3D參數
- 作者測試了3個不同的數據集，效果都很好，顯示了通用性。
I3D （CVPR 2017），two-stream和3D conv的結合，速度慢，適用於離線分析。
基於時空特征的協同學習（CVPR2019，協同時空特征學習在視頻動作識別中的應用）。通過對可學習的參數施加權重共享約束來協同編碼時空特征，共享不同視圖的卷積核，協作學習空間和事件。
帶BN（Batch Normalization）的C3D，在每個卷積層和完全連接層之后采用批量歸一化的C3D。
3D CNN和LSTM結合，對原始視頻進行顯著性檢測，降低網絡參數，降低訓練難度。
（1）KNN和C3D結合，改進的KNN非參數密度算法，高斯濾波，傅里葉變換等。

（2）改進C3D模型，池化 ,用Dropout。

（2020，西安科技大學，基於深度學習的人體異常行為檢測算法研究）

通用模塊

自適應掃描池（AdaScan）,自適應地合並視頻幀，丟棄非信息性幀。（CVPR2017，AdaScan: Adaptive Scan Pooling in Deep Convolutional Neural Networks for Human Action Recognition in Videos）
針對關鍵量的框架，對SGD（隨機梯度下降）的正向和反向階段進行了優化。（CVPR2016，A Key Volume Mining Deep Framework for Action Recognition）
ARTNet架構，構建了SMART通用組件，使用兩個分支單元分別對空間的外觀和時間的關系進行建模，外觀分支是基於每個幀中像素或濾波器響應的線性組合來實現的，而關系分支是基於像素或多個幀中濾波器響應之間的乘法相互作用來設計的。（2017，Appearance-and-Relation Networks for Video Classification）
交互感知時空金字塔注意網絡，將不同尺度的特征圖來構建空間金字塔，利用多尺度信息，來過去更准確的注意力得分。（2018，Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification）
DRN網絡的精准分類效果和Faster-RCNN的融合網絡。用DRN的擴張卷積殘差塊來代替原本一般的卷積層；針對梯度消失和梯度爆炸，每一層前面添加BN層，用三層擴張卷積殘差塊代替兩層殘差塊。(基於DRN和Faster R-CNN融合模型的行為識別算法)
顯著性驅動的最大池化方法，增加特征的時空不變性，考慮部件之間的相關性，用稀疏模型進行特征選擇。（2019，華科，視頻序列中的人體行為檢測識別方法研究）

其他

多模態機器學習
- 多模態表示學習
- 模態轉化
- 對齊
- 多模態融合
- 協同學習

數據集

UCF101

共包含101類動作。其中每類動作由25個人做動作，每人做4-7組，共13320個視頻，分辨率為320*240，共6.5G。

HMDB51
THUMOS
ActivityNet

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。