Progressive Sparse Local Attention for Video object detection


motivation:

之前使用flownet的方法有諸多弊端。

1.在檢測框架中加入光流網絡極大地增加了檢測器模型的參數,無法用在移動端。

2.光流原本是描述兩張圖片間像素點的位移的,直接將其用在high-level的feature map上會引入人為的干擾。特別的,high-level的feature map上的像素點移動一格,對應的圖片上可能存在10-20個像素點的位移,光流估計大位移容易出錯。

  因此本文舍棄了光流網絡,提出了一個叫做Progressive Sparse Local Attention(PSLA)的新模型用來替代光流網絡,在高層語義特征之間做特征傳播。

具體來說,\(F_t,F_{t+\epsilon}\)分別為幀\(I_t,I_{t+1}\)的特征,PSLA首先計算兩特征之間的correspondence weights,然后用這個計算出的權重與特征做卷積來進行特征對齊。這個機制和attention很像但有不同之處,后面會介紹。

和之前的視頻目標檢測方法類似,本文也是僅在稀疏的關鍵幀上做特征提取,並用PSLA得到非關鍵幀的特征。PSLA用在兩個地方:

1.將關鍵幀的特征傳播到非關鍵幀;此外,一個輕量的質量網絡被用在非關鍵幀上,將非關鍵幀的low-level feature用來同傳播來的high-level feature做補充。文章稱之為Dense Feature Transforming(DFT).

2.在關鍵幀之間進行特征傳播;此外,一個更新網絡被用來遞歸地更新關鍵幀上的特征。文章稱之為Recursive Feature Updating(RFU).

 

所提出的框架概覽

圖1.以兩張關鍵幀\(I^{K1},I^{k2}\)和一張非關鍵幀\(I^i\)為例來簡單說明文章的算法框架。關鍵幀首先送到\(N_f\)來得到高層特征\(F_h^k\),非關鍵幀送入一個輕量的網絡\(N_l\)來提取低層特征\(F_l^i\)。

時序特征\(F_t)用RFU來增強高層特征,其中\(F_t\)是由更新網絡結合高層特征來遞歸更新得到的。與此同時,用DFT在關鍵幀和非關鍵幀之間傳播特征。

 

PSLA

   用來進行特征傳播過程中的特征對齊,是本文的核心。這一操作的motivation如圖2所示;

作者隨機選了100段視頻用flownet提取了光流,然后對光流的值進行了統計,分為水平和豎直方向分別進行了統計。可以看到光流值大部分集中在0附近。

這說明用來計算關聯權重的特征單元可以被限制到一個較小的區域,在這個區域里用漸進式稀疏步幅來選擇參與計算的特征pixel。漸進式稀疏步幅使PSLA更關注於近鄰的具有小光流的區域。

PSLA的操作可以歸納為兩步,如下圖所示:

第一步,基於兩個特征的相似性計算稀疏關聯權重值(sparse correspondence weights)。計算公式如下:

值得說明的是,這里的i,和j均代表一個二維坐標。

,這里計算兩個一維向量的內積,代表兩個向量的相似度。

其中i代表上圖中第一個方格圖中的深色點坐標,j代表第二個方格圖中的方框內的深色點坐標。第二個方格圖中深色點坐標的產生具體可看原文。

最后將計算的得到的權重系數用softmax做歸一化,

然后得到對齊后的特征:

這個過程其實就是首先求一個卷積核的權重,然后用卷積核在特征圖上做卷積操作得到待估計圖片的特征。

遞歸特征更新

被用在稀疏關鍵幀之間進行特征聚合增強的操作。為了利用之前幀的時序語義信息,在關鍵幀上不僅要進行特征提取,還要聚合之前關鍵幀的時序信息,得到一個更強的特征表達。

具體的方法和之前的文章類似,這里就不過多贅述。

稠密特征傳播

被用在關鍵幀和非關鍵幀之間,使用PSLA將之前關鍵幀的增強后特征傳播到當前非關鍵幀。這里還用了非關鍵幀的low-level和傳播來的特征進行了一個融合,增強了細節表達。

 

實驗結果:mAP=77.1,titan x上18.73fps,比之前的工作有一些提升。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM