Motivation
實現快速和准確地抽取出視頻中的語義片段
Proposed Method
-提出了TURN模型預測proposal並用temporal coordinate regression來校正proposal的邊界
-通過復用unit feature來實現快速計算
主要步驟如下:
-
Video Unit Processing:
將輸入的視頻平均分為多個video units,每一個unit包含16幀,源碼給的feature是30fps的幀率。將每一個unit送入visual encoder(C3D)中,提取unit-level的特征。 -
Clip Pyramid Modeling:
以每一個unit為anchor unit,構造一個clip pyramid。首先,每一個temporal window pyramid(深藍色部分)由{1,2,4,…}個unit構成,然后在每個temporal window的前后加上一定數量的context unit(淺藍色部分)構成clip。將每一個clip送入Feature Pooling,最終的feature由下面的公式表示:其中
為internal units,
為context units,P為Mean Pooling。
- Unit-level Temporal Coordinate Regression:
網絡包含兩個輸出:第一個輸出confidence score判斷clip中是否包含action,第二個輸出temporal coordinate regression offsets。回歸偏移量由下式表達:
s和e分別表示起始unit和終止unit的位置 - Loss function:
正樣本定義為:(1)與GT的tIoU最大的樣本(2)與GT的tIoU大於0.5的樣本
負樣本定義為:與GT的tIoU為0的樣本
Multi-task Loss:
第一項Lcls為分類Loss,用於對action/background做分類。
λ為trade-off系數
第二項為回歸Loss,用於校正proposal的位置 - New metric:
本文提出了一種新的度量Aerage Recall vs. Frequency of retreived proposals (AR-F),F代表對從視頻中提取proposal的頻率(個/秒)
1 ## outputs[0:2] 判斷是否為動作,outputs[2:4] 回歸偏移 2 reg_end=clip_end+outputs[3]*unit_size 3 reg_start=clip_start+outputs[2]*unit_size 4 5 softmax_score=softmax(outputs[0:2]) 6 action_score=softmax_score[1]
Experiment Setup on THUMOS-14
context unit的數量為4,中間層fm的維度為1000,λ為2.0,temporal window pyramids的unit數為{1,2,4,8,16,32}。實驗還測試了不同的unit size, u∈{16,32}。針對不同的unit feature也做了對比實驗:C3D, optical flow based CNN feature, RGB CNN feature。在evaluation中,NMS的閾值比tIoU小0.1。
本文設計了3個實驗:
1、對比不同的evaluation metrics並比較了各metrics與mAP的相關性
結論:
(1)AR-N不能夠很好地反映TAP的表現
(2)AR-AN不能再不同的數據集進行性能比較
(3)AR-F則不存在上述問題
2、對比了不同visual feature對TURN性能的影響
(1)C3Dfeature,模型用Sports1m數據集預訓練,將連續的16幀(一個unit)送入C3D,並提取fc6特征
(2)RGB CNN特征,從一個unit中均勻采8幀,提取ResNet中的Flatten_673特征(用Activity v1.3預訓練),然后計算這8個feature的平均值作為這個unit的特征。
(3)dense flow CNN,在unit中間取連續的6幀並計算對應的光流,將flow送入BN-Inception(用Activity v1.3預訓練)中,取global_pool特征
2、對比TURN和其他TAP方法的性能
對比方法包括:DAPs,SCNN-prop,Sparse-prop,sliding window,random proposals
3、對比不同的TAP方法在localization task中的性能(相同的classifier/localizer),即將生成的proposal送到classifier中,並得到21個類別的的confidence scores(20類action和1類background)
實驗用到了SVM classifier和SCNN-Localizaer
Experiment Setup on ActivityNet
context unit的數量為4,λ為2.0,temporal window pyramids的unit數為{2,4,8,16,32,64,128}。實驗還測試了不同的unit size, nu∈{16,32}。在evaluation中,NMS的閾值比tIoU小0.1。實驗中的temporal action localizer用的是SVM,通過sports和works子集數據的two-stream CNN features 進行訓練。
1、評估了TURN的泛化能力
(1)在v1.2數據集中,用了ActivityNet,ActivityNet⋂THUMOS14,ActivityNet<1024frames三種訓練數據,對比了DAPs和TURN的泛化能力
(2)在v1.3數據集中,有兩種訓練策略:
- 在一個subset訓練,在另外三個subsets測試
- 在四個subsets上訓練,然后在每個subset中逐個測試
2、評估了TURN在temporal action localization task上的表現
在實驗中用了ActivityNet v1.1的Works和Sports子集。本文選擇TURN-FL-16(用dense flow feature訓練得到)來生成proposals。先用two-stream CNN feature訓練一個SVM,接着將TURN-FL-16生成的proposals送到SVM中進行分類
轉自:AIvin2AI