TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals（ICCV2017）

本文轉載自查看原文 2018-09-28 20:07 790 video detection

Motivation

實現快速和准確地抽取出視頻中的語義片段

Proposed Method

-提出了TURN模型預測proposal並用temporal coordinate regression來校正proposal的邊界

-通過復用unit feature來實現快速計算

主要步驟如下：

Video Unit Processing:
將輸入的視頻平均分為多個video units，每一個unit包含16幀，源碼給的feature是30fps的幀率。將每一個unit送入visual encoder（C3D）中，提取unit-level的特征。
Clip Pyramid Modeling:
以每一個unit為anchor unit，構造一個clip pyramid。首先，每一個temporal window pyramid（深藍色部分）由{1,2,4,…}個unit構成，然后在每個temporal window的前后加上一定數量的context unit（淺藍色部分）構成clip。將每一個clip送入Feature Pooling，最終的feature由下面的公式表示：

其中為internal units，為context units，P為Mean Pooling。
Unit-level Temporal Coordinate Regression:
網絡包含兩個輸出：第一個輸出confidence score判斷clip中是否包含action，第二個輸出temporal coordinate regression offsets。回歸偏移量由下式表達：

s和e分別表示起始unit和終止unit的位置
Loss function:
正樣本定義為：(1)與GT的tIoU最大的樣本(2)與GT的tIoU大於0.5的樣本
負樣本定義為：與GT的tIoU為0的樣本
Multi-task Loss：

第一項
New metric:
本文提出了一種新的度量Aerage Recall vs. Frequency of retreived proposals (AR-F)，F代表對從視頻中提取proposal的頻率（個/秒）

1 ## outputs[0:2] 判斷是否為動作，outputs[2:4] 回歸偏移
2 reg_end=clip_end+outputs[3]*unit_size
3 reg_start=clip_start+outputs[2]*unit_size
4 
5 softmax_score=softmax(outputs[0:2])
6 action_score=softmax_score[1]

Experiment Setup on THUMOS-14

context unit的數量為4，中間層

本文設計了3個實驗：
1、對比不同的evaluation metrics並比較了各metrics與mAP的相關性
結論：
(1)AR-N不能夠很好地反映TAP的表現
(2)AR-AN不能再不同的數據集進行性能比較
(3)AR-F則不存在上述問題

2、對比了不同visual feature對TURN性能的影響
(1)C3Dfeature，模型用Sports1m數據集預訓練，將連續的16幀（一個unit）送入C3D，並提取fc6特征
(2)RGB CNN特征，從一個unit中均勻采8幀，提取ResNet中的Flatten_673特征（用Activity v1.3預訓練），然后計算這8個feature的平均值作為這個unit的特征。
(3)dense flow CNN，在unit中間取連續的6幀並計算對應的光流，將flow送入BN-Inception（用Activity v1.3預訓練）中，取global_pool特征

2、對比TURN和其他TAP方法的性能
對比方法包括：DAPs，SCNN-prop，Sparse-prop，sliding window，random proposals

3、對比不同的TAP方法在localization task中的性能（相同的classifier/localizer），即將生成的proposal送到classifier中，並得到21個類別的的confidence scores（20類action和1類background）
實驗用到了SVM classifier和SCNN-Localizaer

Experiment Setup on ActivityNet

context unit的數量為4，

在一個subset訓練，在另外三個subsets測試
在四個subsets上訓練，然后在每個subset中逐個測試

2、評估了TURN在temporal action localization task上的表現
在實驗中用了ActivityNet v1.1的Works和Sports子集。本文選擇TURN-FL-16（用dense flow feature訓練得到）來生成proposals。先用two-stream CNN feature訓練一個SVM，接着將TURN-FL-16生成的proposals送到SVM中進行分類

轉自：AIvin2AI

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文閱讀筆記（十一）【ICCV2017】：Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identiﬁcation 論文筆記之 SST: Single-Stream Temporal Action Proposals 論文閱讀（Lukas Neumann——【ICCV2017】Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework） Background Suppression Network for Weakly-supervised Temporal Action Localization [Paper Reading] 【ICCV 2021】論文閱讀：3D Human Pose Estimation with Spatial and Temporal Transformers Linux 【解決】Failed to restart network.service: Unit network.service not found. 課程一(Neural Networks and Deep Learning)，第二周（Basics of Neural Network programming）—— 4、Logistic Regression with a Neural Network mindset 《T-GCN: A Temporal Graph Convolutional Network for Trafﬁc Prediction》代碼解讀 Temporal Action Detection（時序動作檢測）之R-C3D論文詳解 Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition (ST-GCN)