互補時域動作提名生成
這里的互補是指actionness score grouping 和 sliding window ranking這兩種方法提proposal的結合,這兩種方法各有利弊,形成互補。
滑窗均勻覆蓋所有的視頻片段,但時域邊界不准確,聚合方法可能更准確但當actionness score比較低的時候,也會漏掉一些proposal。
整體思路:
用actionness score proposal訓好PATE網絡作用在滑窗proposal上,以此來收集被actionness score grouping遺漏的proposal。
這些proposal經過時域卷積用於proposal ranking和邊界回歸。本論文在TURN的基礎上做的改進。
三種主流方法:
第一種方法的缺點是邊界不准,當收集大量proposal時才會產生較高的recall。
第二種方法在更細的粒度上(unit / snippet)訓練二分類器,產生actionness score。TAG算法是merge的處理算法,源自watershed算法,用於將連續的高分區域聚合成proposal,避開的硬閾值聚合的缺點,是ssn那篇文章提出的方法。邊界更加准確。當這種方法有兩個常見的缺點:
1. 在背景片段產生高分響應,導致fp。
2. 在動作片段產生低分響應,導致低recall。
解決方案:
缺點1的方案. actionness proposal是細粒度的,邊界更加准確。window-level ranking 加入了全局上下文信息而更有區分性。
window-level分類器用於TAG后處理,以及proposal的排序和邊界回歸。
缺點2的方案. 滑窗均勻覆蓋了視頻的所有片段。
適應性的選擇滑窗產生的proposal來彌補actionness遺漏的proposal
CTAP:
產生actionness proposals和滑窗proposals,用proposal互補分類器從滑窗proposal中選擇漏掉的正確proposal,這個兩類分類器用於區分proposal是否被actionness和TAG正確檢測到。最后一步是proposal ranking和時域邊界微調。相比作者的另一篇TURN中的簡單時域平均池化,這里使用了時域卷積。可以有效的保存順序信息
這里的時序卷積就是時域上的一維卷積
Initail Proposal Generation
Video pre-processing:視頻被切分為許多視頻單元,每個單元包含連續的n幀,應用雙流提取對應單元的特征。
Actionness score:訓練一個二分類器對每一個單元產生actionness score
設計了兩層時序卷積網絡,輸入是ta個連續的特征單元,輸出動作還是背景的概率
。
交叉熵loss,N是batchsize:
表示二值序列,對每一個輸入xi表示在xi內的每一個單元有動作1,沒動作0。
Actionness proposal generation strategy:ssn的枚舉雙閾值TAG算法,group proposals
Sliding window sampling strategy
Proposal Complementary Filtering
輸入是平均池化后的ground truth feature,與actionness proposal相比tIoU大於閾值yi=1,小於則yi=0。
Loss:N batchsize
Complementary filtering
PATE網絡:分類出這個proposal多大概率可以被actionness score檢測出來,對於一個滑窗產生的proposal,如果低於閾值,那么TAG將無法檢測出來,這個proposal將和actionness proposal合並在一起。
Proposal Ranking and Boundary Adjustment
TAR Architecture :在proposal內均勻采樣nctl個單元。,分別以開始單元和結束單元采樣nctx個單元作為邊界單元,,proposal ranking網絡輸出動作概率,邊界微調網絡輸出回歸偏移,每個網絡有兩層時域卷積
滑窗的proposal score計算:
actionness score:
TAR Training : 收集訓練樣本,使用密集滑窗並和groundtruth比較
(1) 和其他windows相比在某個gt上有最大的tIoU
(2) 與任意一個gt比,它的tIoU大於0.5
標准softmax 交叉熵loss訓練proposal ranking 網絡,L1 loss 訓練邊界回歸網絡
osi是預測的起始位置偏移,oei是預測結束位置偏移,星號的是gt相對proposal的偏移,當l為1時考慮回歸loss
交叉熵loss:和pate的交叉熵loss相似,學出proposal為動作的概率
Thumos14 result
Experiment
Unit-level feature extraction:
(1)RGB CNN特征,從一個unit中均勻采8幀,提取ResNet中的Flatten_673特征(用Activity v1.3預訓練),然后計算這8個feature的平均值作為這個unit的特征。
(2)dense flow CNN,在unit中心取連續的6幀並計算對應的光流,將flow送入BN-Inception(用Activity v1.3預訓練)中,取global_pool特征
雙流feature的每一種特征都是2048維,concat在一起。
unit features Flow-16 只使用flow feature unit size 為 16;Twostream-6 使用 two-stream features unit size 為 6
Sliding window sampling strategy:
和TURN一致,采用的proposal長度為{16, 32, 64, 128, 256, 512} ,Activitynet1.3: {64, 128, 256, 512, 768, 1024, 1536, 2048, 2560, 3072, 3584, 4096, 6144} tIOU of 0.75
Actionness score generation 這里介紹一些超參,連續特征單元數ta=4。
TAR setting:在每個proposal內部均勻采樣8個單元feature,4個單元作為context
對比實驗了PATE模塊