Introduction
為了提取兩個特征之間的相關性,設計了Relation Module(RM)來計算相關性向量;
為了減小背景干擾,關注局部的信息區域,采用了Relation-Guided Spatial Attention Module(RGSA),由特征和相關性向量來決定關注的區域;
為提取視頻級特征,采用了Relation-Guided Temporal Refinement Module(RGTR),通過幀之間的關系信息融合為視頻特征。
Method
(1)框架概述:
假定輸入的視頻片段為,采用CNN提取得到單幀的特征映射
,傳入RGSA提取得到幀級特征向量
,得到向量集合
,最后通過RGTR得到視頻級特征向量
。采用的損失包含:幀級的交叉熵損失、視頻級的交叉熵損失、三元組損失。
(2)RM模塊:
計算兩個向量之間的關系最簡單的方法是求向量的內積,但其結果只能表明向量間的相似度,忽視了局部的相似度和差異。另一個常用計算方法是計算元素差異,但這種方法包含了冗余信息,且計算量大。因此作者提出了RM模塊來計算兩個特征之間的關系向量。
兩個特征之間的差異度計算為:,其中
,
,其中
,最終得到相關性向量為:
,其中
。
(3)RGSA模塊:
假定圖像的特征映射為,其中
表示不同的空間元素,每個元素都表示為 C 維的特征向量,將特征重構為
,針對每一個空間元素都計算其與其它位置元素的相關性向量,即:
與位置 i 有關的相關性向量concat為:
其中:,得到空間的注意力得分:
其中,最終特征向量融合了空間注意力,為:
(4)RGTR模塊:
通過上述模塊提取得到幀級的特征向量,通過RM模塊提取幀之間的相關性向量:
將關於 t 幀的相關性向量進行concat,為:
與原特征進行融合,為:
最終視頻級的特征向量為:
(5)損失函數:
對視頻級特征、幀級特征采用交叉熵損失,分別為、
,總交叉熵損失為:
三元組損失計算為:
其中:,
,
,
為距離函數。
全局損失為:
Experiment
(1)實驗設置:
① 數據集:MARS、DukeMTMC-VideoReID、iLIDS-VID、PRID-2011;
② 實驗細節:在訓練階段隨機從視頻中挑選T幀,每個batch包含 P 個行人ID,每個行人ID包含 K 個視頻;數據輸入采取隨機翻轉、隨機擦除;骨干網絡采用預訓練的ResNet50;訓練階段選取幀數為T/2;采用4塊NVIDIA Tesla V100 GPU進行訓練測試;
③ 參數設置:P = 18,K = 4,即batch size = 72 T;輸入圖像規格為 256*128;訓練器為Adam,其weight decay = 5*10-4;迭代次數為375次;學習率為3*10-4,在125個epoch和250個epoch后均下降到0.1倍。
(2)實驗結果:
(3)方法效果可視化: