CTAP: Complementary Temporal Action Proposal Generation (ECCV2018)

本文轉載自查看原文 2018-09-28 12:06 1028 video detection

互補時域動作提名生成

這里的互補是指actionness score grouping 和 sliding window ranking這兩種方法提proposal的結合，這兩種方法各有利弊，形成互補。

滑窗均勻覆蓋所有的視頻片段，但時域邊界不准確，聚合方法可能更准確但當actionness score比較低的時候，也會漏掉一些proposal。

整體思路：

用actionness score proposal訓好PATE網絡作用在滑窗proposal上，以此來收集被actionness score grouping遺漏的proposal。

這些proposal經過時域卷積用於proposal ranking和邊界回歸。本論文在TURN的基礎上做的改進。

三種主流方法：

第一種方法的缺點是邊界不准，當收集大量proposal時才會產生較高的recall。

第二種方法在更細的粒度上(unit / snippet)訓練二分類器，產生actionness score。TAG算法是merge的處理算法，源自watershed算法，用於將連續的高分區域聚合成proposal，避開的硬閾值聚合的缺點，是ssn那篇文章提出的方法。邊界更加准確。當這種方法有兩個常見的缺點：

1. 在背景片段產生高分響應，導致fp。

2. 在動作片段產生低分響應，導致低recall。

解決方案：

缺點1的方案. actionness proposal是細粒度的，邊界更加准確。window-level ranking 加入了全局上下文信息而更有區分性。

window-level分類器用於TAG后處理，以及proposal的排序和邊界回歸。

缺點2的方案. 滑窗均勻覆蓋了視頻的所有片段。

適應性的選擇滑窗產生的proposal來彌補actionness遺漏的proposal

CTAP：

產生actionness proposals和滑窗proposals，用proposal互補分類器從滑窗proposal中選擇漏掉的正確proposal，這個兩類分類器用於區分proposal是否被actionness和TAG正確檢測到。最后一步是proposal ranking和時域邊界微調。相比作者的另一篇TURN中的簡單時域平均池化，這里使用了時域卷積。可以有效的保存順序信息

這里的時序卷積就是時域上的一維卷積

Initail Proposal Generation

Video pre-processing：視頻被切分為許多視頻單元，每個單元包含連續的n幀，應用雙流提取對應單元的特征。

Actionness score：訓練一個二分類器對每一個單元產生actionness score

設計了兩層時序卷積網絡，輸入是ta個連續的特征單元，輸出動作還是背景的概率。

交叉熵loss，N是batchsize：

表示二值序列，對每一個輸入xi表示在xi內的每一個單元有動作1，沒動作0。

Actionness proposal generation strategy：ssn的枚舉雙閾值TAG算法，group proposals

Sliding window sampling strategy

Proposal Complementary Filtering

輸入是平均池化后的ground truth feature，與actionness proposal相比tIoU大於閾值yi=1，小於則yi=0。

Loss：N batchsize

Complementary filtering

PATE網絡：分類出這個proposal多大概率可以被actionness score檢測出來，對於一個滑窗產生的proposal，如果低於閾值，那么TAG將無法檢測出來，這個proposal將和actionness proposal合並在一起。

Proposal Ranking and Boundary Adjustment

TAR Architecture ：在proposal內均勻采樣nctl個單元。，分別以開始單元和結束單元采樣nctx個單元作為邊界單元，，proposal ranking網絡輸出動作概率，邊界微調網絡輸出回歸偏移，每個網絡有兩層時域卷積

滑窗的proposal score計算：

actionness score：

TAR Training : 收集訓練樣本，使用密集滑窗並和groundtruth比較

(1) 和其他windows相比在某個gt上有最大的tIoU

(2) 與任意一個gt比，它的tIoU大於0.5

標准softmax 交叉熵loss訓練proposal ranking 網絡，L1 loss 訓練邊界回歸網絡

osi是預測的起始位置偏移，oei是預測結束位置偏移，星號的是gt相對proposal的偏移，當l為1時考慮回歸loss

交叉熵loss：和pate的交叉熵loss相似，學出proposal為動作的概率

Thumos14 result

Experiment

Unit-level feature extraction：

(1)RGB CNN特征，從一個unit中均勻采8幀，提取ResNet中的Flatten_673特征（用Activity v1.3預訓練），然后計算這8個feature的平均值作為這個unit的特征。
(2)dense flow CNN，在unit中心取連續的6幀並計算對應的光流，將flow送入BN-Inception（用Activity v1.3預訓練）中，取global_pool特征

雙流feature的每一種特征都是2048維，concat在一起。

unit features Flow-16 只使用flow feature unit size 為 16；Twostream-6 使用 two-stream features unit size 為 6

Sliding window sampling strategy：

和TURN一致，采用的proposal長度為{16, 32, 64, 128, 256, 512} ，Activitynet1.3: {64, 128, 256, 512, 768, 1024, 1536, 2048, 2560, 3072, 3584, 4096, 6144} tIOU of 0.75

Actionness score generation 這里介紹一些超參，連續特征單元數ta=4。

TAR setting：在每個proposal內部均勻采樣8個單元feature，4個單元作為context

對比實驗了PATE模塊

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文閱讀筆記五十：CornerNet: Detecting Objects as Paired Keypoints(ECCV2018) 【論文閱讀】Diverse Image-to-Image Translation via Disentangled Representations（ECCV2018 oral） [SANet] Scale Aggregation Network for Accurate and Efficient Crowd Counting (ECCV2018)（人群密度）論文閱讀筆記《The Contextual Loss for Image Transformationwith Non-Aligned Data》（ECCV2018 oral）論文閱讀筆記（六十五）【ECCV2018】：Deep Cross-Modal Projection Learning for Image-Text Matching CVPR2018+ECCV2018目標檢測算法匯總論文閱讀筆記四：CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network(ECCV2016) 論文閱讀（Weilin Huang——【ECCV2016】Detecting Text in Natural Image with Connectionist Text Proposal Network） Temporal Action Detection with Structured Segment Networks (ssn)【轉】 ECCV 2018 完整論文集 -- List & 下載鏈接