Flow-Guided Feature Aggregation for Video Object Detection論文筆記


摘要

目前檢測的准確率受物體視頻中變化的影響,如運動模糊,鏡頭失焦等。現有工作是想要在框的級別上尋找時序信息,但這樣的方法通常不能端到端訓練。我們提出了flow-guided feature aggregation,一個用於視頻物體檢測的端到端學習框架。在特征級別上利用時序信息,通過相鄰幀的運動路徑提高每幀的特征,從而提高檢測的准確率。

 簡介

特征提取網絡提取出每幀的feature maps。為了enhance被處理幀的特征,用一個光流網絡(flownet)預測相鄰幀和該幀之間的motions。從鄰近幀得到的feature maps 被光流 warped to the reference frame。The warped feature maps以及its own feature maps在一個自適應的加權網絡中聚合。聚合后的feature maps are fed to 檢測網絡得到該幀最后的檢測結果。其中,所有的特征提取模型都是trained end-to-end。

框架的主要思想如上圖。最后一層為原圖,可以發現第t幀經過光流處理的特征並不明顯,而第t-10幀及t+10幀較明顯,於是用motion-guided spatial warping預測幀之間的motion。得到warping后的feature maps,將這些特征融合。將融合后的feature map fed to detection network得到最后的檢測結果。

由上文可知,框架需要兩個主要模型,一是motion-guided spatial warping, 另一個是feature融合。

 

框架介紹

1. flow-guided warping

對於相鄰兩幀,首先用flownet得到 a flow field(Mi->j = F(Ii,Ij))。之后warping得到的初始化feature maps,得到flow-guided warp(fj->i = W(fj, Mi->j))。

2. feature aggregation

如何求解融合的weights?首先在不同的空間位置用不同的weights,讓所有的特征通道用相同的空間weights。得到的weights記作wj->i。每個位置的wj->i(p)都被normalized,即相鄰2k+1幀該點的weights之和為1。

3. adaptive weight

adaptive weight表示相鄰2K幀對當前幀影響的程度。if fj->i(p) is close to fi(p), 則將被分配一個較大的weight,相反。用余弦相似度來測量兩者之間close的程度。

除此之外,不直接用融合得到的特征,而是用一個tiny fcn處理 fi 和 fj->i,用於計算embedding features。

4. 算法流程

上圖對算法流程介紹的很詳細,就不再一一解釋了。

 

實驗

光流用的flownet, feature network實驗了resnet-50, resnet-101,tiny fcn只有三層,檢測網絡用的R-FCN。

論文中對不同運動速度及不同網絡不同條件下的實驗結果做了詳細介紹。

 

福利:代碼這個月已經在github上開源 : https://github.com/msracver/Flow-Guided-Feature-Aggregation

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM