論文閱讀筆記(三十六)【AAAI2020】:Relation-Guided Spatial Attention and Temporal Refinement for Video-based Person Re-Identification


Introduction

為了提取兩個特征之間的相關性,設計了Relation Module(RM)來計算相關性向量;

為了減小背景干擾,關注局部的信息區域,采用了Relation-Guided Spatial Attention Module(RGSA),由特征和相關性向量來決定關注的區域;

為提取視頻級特征,采用了Relation-Guided Temporal Refinement Module(RGTR),通過幀之間的關系信息融合為視頻特征。

 

Method

(1)框架概述:

假定輸入的視頻片段為,采用CNN提取得到單幀的特征映射,傳入RGSA提取得到幀級特征向量 ,得到向量集合,最后通過RGTR得到視頻級特征向量。采用的損失包含:幀級的交叉熵損失、視頻級的交叉熵損失、三元組損失。

 

(2)RM模塊:

計算兩個向量之間的關系最簡單的方法是求向量的內積,但其結果只能表明向量間的相似度,忽視了局部的相似度和差異。另一個常用計算方法是計算元素差異,但這種方法包含了冗余信息,且計算量大。因此作者提出了RM模塊來計算兩個特征之間的關系向量。

 兩個特征之間的差異度計算為:,其中,其中,最終得到相關性向量為:,其中

 

(3)RGSA模塊:

假定圖像的特征映射為,其中表示不同的空間元素,每個元素都表示為 C 維的特征向量,將特征重構為,針對每一個空間元素都計算其與其它位置元素的相關性向量,即:

與位置 i 有關的相關性向量concat為:

其中:,得到空間的注意力得分:

其中,最終特征向量融合了空間注意力,為:

 

(4)RGTR模塊:

 通過上述模塊提取得到幀級的特征向量,通過RM模塊提取幀之間的相關性向量:

將關於 t 幀的相關性向量進行concat,為:

與原特征進行融合,為:

最終視頻級的特征向量為:

 

(5)損失函數:

對視頻級特征、幀級特征采用交叉熵損失,分別為,總交叉熵損失為:

 三元組損失計算為:

其中:為距離函數。

全局損失為:

 

Experiment

(1)實驗設置:

① 數據集:MARS、DukeMTMC-VideoReID、iLIDS-VID、PRID-2011;

② 實驗細節:在訓練階段隨機從視頻中挑選T幀,每個batch包含 P 個行人ID,每個行人ID包含 K 個視頻;數據輸入采取隨機翻轉、隨機擦除;骨干網絡采用預訓練的ResNet50;訓練階段選取幀數為T/2;采用4塊NVIDIA Tesla V100 GPU進行訓練測試;

③ 參數設置:P = 18,K = 4,即batch size = 72 T;輸入圖像規格為 256*128;訓練器為Adam,其weight decay = 5*10-4;迭代次數為375次;學習率為3*10-4,在125個epoch和250個epoch后均下降到0.1倍。

 

(2)實驗結果:

 

(3)方法效果可視化:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM