TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals(ICCV2017)


Motivation

實現快速和准確地抽取出視頻中的語義片段

Proposed Method

-提出了TURN模型預測proposal並用temporal coordinate regression來校正proposal的邊界

-通過復用unit feature來實現快速計算

主要步驟如下:

  • Video Unit Processing:
    將輸入的視頻平均分為多個video units,每一個unit包含16幀,源碼給的feature是30fps的幀率。將每一個unit送入visual encoder(C3D)中,提取unit-level的特征。

  • Clip Pyramid Modeling:
    以每一個unit為anchor unit,構造一個clip pyramid。首先,每一個temporal window pyramid(深藍色部分)由{1,2,4,…}個unit構成,然后在每個temporal window的前后加上一定數量的context unit(淺藍色部分)構成clip。將每一個clip送入Feature Pooling,最終的feature由下面的公式表示:
     

    其中這里寫圖片描述為internal units,為context units,P為Mean Pooling。

  • Unit-level Temporal Coordinate Regression:
    網絡包含兩個輸出:第一個輸出confidence score判斷clip中是否包含action,第二個輸出temporal coordinate regression offsets。回歸偏移量由下式表達:

    s和e分別表示起始unit和終止unit的位置
  • Loss function:
    正樣本定義為:(1)與GT的tIoU最大的樣本(2)與GT的tIoU大於0.5的樣本
    負樣本定義為:與GT的tIoU為0的樣本
    Multi-task Loss:
    這里寫圖片描述
    第一項Lcls為分類Loss,用於對action/background做分類。
    λ為trade-off系數
    第二項為回歸Loss,用於校正proposal的位置
  • New metric:
    本文提出了一種新的度量Aerage Recall vs. Frequency of retreived proposals (AR-F),F代表對從視頻中提取proposal的頻率(個/秒)
1 ## outputs[0:2] 判斷是否為動作,outputs[2:4] 回歸偏移
2 reg_end=clip_end+outputs[3]*unit_size
3 reg_start=clip_start+outputs[2]*unit_size
4 
5 softmax_score=softmax(outputs[0:2])
6 action_score=softmax_score[1] 

 

Experiment Setup on THUMOS-14

context unit的數量為4,中間層fm的維度為1000,λ為2.0,temporal window pyramids的unit數為{1,2,4,8,16,32}。實驗還測試了不同的unit size, u∈{16,32}。針對不同的unit feature也做了對比實驗:C3D, optical flow based CNN feature, RGB CNN feature。在evaluation中,NMS的閾值比tIoU小0.1。

本文設計了3個實驗:
1、對比不同的evaluation metrics並比較了各metrics與mAP的相關性
結論:
(1)AR-N不能夠很好地反映TAP的表現
(2)AR-AN不能再不同的數據集進行性能比較
(3)AR-F則不存在上述問題

2、對比了不同visual feature對TURN性能的影響
(1)C3Dfeature,模型用Sports1m數據集預訓練,將連續的16幀(一個unit)送入C3D,並提取fc6特征
(2)RGB CNN特征,從一個unit中均勻采8幀,提取ResNet中的Flatten_673特征(用Activity v1.3預訓練),然后計算這8個feature的平均值作為這個unit的特征。
(3)dense flow CNN,在unit中間取連續的6幀並計算對應的光流,將flow送入BN-Inception(用Activity v1.3預訓練)中,取global_pool特征

2、對比TURN和其他TAP方法的性能
對比方法包括:DAPs,SCNN-prop,Sparse-prop,sliding window,random proposals

3、對比不同的TAP方法在localization task中的性能(相同的classifier/localizer),即將生成的proposal送到classifier中,並得到21個類別的的confidence scores(20類action和1類background)
實驗用到了SVM classifier和SCNN-Localizaer

Experiment Setup on ActivityNet

context unit的數量為4,λ為2.0,temporal window pyramids的unit數為{2,4,8,16,32,64,128}。實驗還測試了不同的unit size, nu∈{16,32}。在evaluation中,NMS的閾值比tIoU小0.1。實驗中的temporal action localizer用的是SVM,通過sports和works子集數據的two-stream CNN features 進行訓練。
1、評估了TURN的泛化能力
(1)在v1.2數據集中,用了ActivityNet,ActivityNetTHUMOS14,ActivityNet<1024frames三種訓練數據,對比了DAPs和TURN的泛化能力
(2)在v1.3數據集中,有兩種訓練策略:

  1. 在一個subset訓練,在另外三個subsets測試
  2. 在四個subsets上訓練,然后在每個subset中逐個測試

2、評估了TURN在temporal action localization task上的表現
在實驗中用了ActivityNet v1.1的Works和Sports子集。本文選擇TURN-FL-16(用dense flow feature訓練得到)來生成proposals。先用two-stream CNN feature訓練一個SVM,接着將TURN-FL-16生成的proposals送到SVM中進行分類

轉自:AIvin2AI


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM