CTAP: Complementary Temporal Action Proposal Generation (ECCV2018)


互補時域動作提名生成

這里的互補是指actionness score grouping 和 sliding window ranking這兩種方法提proposal的結合,這兩種方法各有利弊,形成互補。

滑窗均勻覆蓋所有的視頻片段,但時域邊界不准確,聚合方法可能更准確但當actionness score比較低的時候,也會漏掉一些proposal。

整體思路:

用actionness score proposal訓好PATE網絡作用在滑窗proposal上,以此來收集被actionness score grouping遺漏的proposal。

這些proposal經過時域卷積用於proposal ranking和邊界回歸。本論文在TURN的基礎上做的改進。

三種主流方法:

第一種方法的缺點是邊界不准,當收集大量proposal時才會產生較高的recall。

第二種方法在更細的粒度上(unit / snippet)訓練二分類器,產生actionness score。TAG算法是merge的處理算法,源自watershed算法,用於將連續的高分區域聚合成proposal,避開的硬閾值聚合的缺點,是ssn那篇文章提出的方法。邊界更加准確。當這種方法有兩個常見的缺點:

1. 在背景片段產生高分響應,導致fp。

2. 在動作片段產生低分響應,導致低recall。

解決方案:

缺點1的方案. actionness proposal是細粒度的,邊界更加准確。window-level ranking 加入了全局上下文信息而更有區分性。

window-level分類器用於TAG后處理,以及proposal的排序和邊界回歸。

缺點2的方案. 滑窗均勻覆蓋了視頻的所有片段。

適應性的選擇滑窗產生的proposal來彌補actionness遺漏的proposal

CTAP:

產生actionness proposals和滑窗proposals,用proposal互補分類器從滑窗proposal中選擇漏掉的正確proposal,這個兩類分類器用於區分proposal是否被actionness和TAG正確檢測到。最后一步是proposal ranking和時域邊界微調。相比作者的另一篇TURN中的簡單時域平均池化,這里使用了時域卷積。可以有效的保存順序信息

 

這里的時序卷積就是時域上的一維卷積

Initail Proposal Generation

Video pre-processing:視頻被切分為許多視頻單元,每個單元包含連續的n幀,應用雙流提取對應單元的特征。

Actionness score:訓練一個二分類器對每一個單元產生actionness score

設計了兩層時序卷積網絡,輸入是ta個連續的特征單元,輸出動作還是背景的概率

交叉熵loss,N是batchsize:

表示二值序列,對每一個輸入xi表示在xi內的每一個單元有動作1,沒動作0。

Actionness proposal generation strategy:ssn的枚舉雙閾值TAG算法,group proposals

Sliding window sampling strategy 

Proposal Complementary Filtering 

輸入是平均池化后的ground truth feature,與actionness proposal相比tIoU大於閾值yi=1,小於則yi=0。

 Loss:N batchsize

Complementary filtering 

PATE網絡:分類出這個proposal多大概率可以被actionness score檢測出來,對於一個滑窗產生的proposal,如果低於閾值,那么TAG將無法檢測出來,這個proposal將和actionness proposal合並在一起。

Proposal Ranking and Boundary Adjustment 

TAR Architecture :在proposal內均勻采樣nctl個單元。,分別以開始單元和結束單元采樣nctx個單元作為邊界單元,,proposal ranking網絡輸出動作概率,邊界微調網絡輸出回歸偏移,每個網絡有兩層時域卷積

滑窗的proposal score計算:

actionness score:

TAR Training : 收集訓練樣本,使用密集滑窗並和groundtruth比較

(1) 和其他windows相比在某個gt上有最大的tIoU

(2) 與任意一個gt比,它的tIoU大於0.5

標准softmax 交叉熵loss訓練proposal ranking 網絡,L1 loss 訓練邊界回歸網絡

osi是預測的起始位置偏移,oei是預測結束位置偏移,星號的是gt相對proposal的偏移,當l為1時考慮回歸loss

交叉熵loss:和pate的交叉熵loss相似,學出proposal為動作的概率

 

 Thumos14 result

 

Experiment

Unit-level feature extraction:

(1)RGB CNN特征,從一個unit中均勻采8幀,提取ResNet中的Flatten_673特征(用Activity v1.3預訓練),然后計算這8個feature的平均值作為這個unit的特征。 
(2)dense flow CNN,在unit中心取連續的6幀並計算對應的光流,將flow送入BN-Inception(用Activity v1.3預訓練)中,取global_pool特征

雙流feature的每一種特征都是2048維,concat在一起。

unit features Flow-16 只使用flow feature unit size 為 16;Twostream-6 使用 two-stream features unit size 為 6 

Sliding window sampling strategy:

和TURN一致,采用的proposal長度為{16, 32, 64, 128, 256, 512} ,Activitynet1.3: {64, 128, 256, 512, 768, 1024, 1536, 2048, 2560, 3072, 3584, 4096, 6144}  tIOU of 0.75 

Actionness score generation 這里介紹一些超參,連續特征單元數ta=4。

TAR setting:在每個proposal內部均勻采樣8個單元feature,4個單元作為context

對比實驗了PATE模塊

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM