論文閱讀筆記（三十六）【AAAI2020】：Relation-Guided Spatial Attention and Temporal Reﬁnement for Video-based Person Re-Identiﬁcation - 碼上快樂

相關內容簡體繁體

論文閱讀筆記（三十六）【AAAI2020】：Relation-Guided Spatial Attention and Temporal Reﬁnement for Video-based Person Re-Identiﬁcation

本文轉載自查看原文 2020-04-24 15:30 631 行人重識別

Introduction

為了提取兩個特征之間的相關性，設計了Relation Module（RM）來計算相關性向量；

為了減小背景干擾，關注局部的信息區域，采用了Relation-Guided Spatial Attention Module（RGSA），由特征和相關性向量來決定關注的區域；

為提取視頻級特征，采用了Relation-Guided Temporal Refinement Module（RGTR），通過幀之間的關系信息融合為視頻特征。

Method

（1）框架概述：

假定輸入的視頻片段為，采用CNN提取得到單幀的特征映射，傳入RGSA提取得到幀級特征向量，得到向量集合，最后通過RGTR得到視頻級特征向量。采用的損失包含：幀級的交叉熵損失、視頻級的交叉熵損失、三元組損失。

（2）RM模塊：

計算兩個向量之間的關系最簡單的方法是求向量的內積，但其結果只能表明向量間的相似度，忽視了局部的相似度和差異。另一個常用計算方法是計算元素差異，但這種方法包含了冗余信息，且計算量大。因此作者提出了RM模塊來計算兩個特征之間的關系向量。

兩個特征之間的差異度計算為：，其中，，其中，最終得到相關性向量為：，其中。

（3）RGSA模塊：

假定圖像的特征映射為，其中表示不同的空間元素，每個元素都表示為 C 維的特征向量，將特征重構為，針對每一個空間元素都計算其與其它位置元素的相關性向量，即：

與位置 i 有關的相關性向量concat為：

其中：，得到空間的注意力得分：

其中，最終特征向量融合了空間注意力，為：

（4）RGTR模塊：

通過上述模塊提取得到幀級的特征向量，通過RM模塊提取幀之間的相關性向量：

將關於 t 幀的相關性向量進行concat，為：

與原特征進行融合，為：

最終視頻級的特征向量為：

（5）損失函數：

對視頻級特征、幀級特征采用交叉熵損失，分別為、，總交叉熵損失為：

三元組損失計算為：

其中：，，，為距離函數。

全局損失為：

Experiment

（1）實驗設置：

① 數據集：MARS、DukeMTMC-VideoReID、iLIDS-VID、PRID-2011；

② 實驗細節：在訓練階段隨機從視頻中挑選T幀，每個batch包含 P 個行人ID，每個行人ID包含 K 個視頻；數據輸入采取隨機翻轉、隨機擦除；骨干網絡采用預訓練的ResNet50；訓練階段選取幀數為T/2；采用4塊NVIDIA Tesla V100 GPU進行訓練測試；

③ 參數設置：P = 18，K = 4，即batch size = 72 T；輸入圖像規格為 256*128；訓練器為Adam，其weight decay = 5*10^-4；迭代次數為375次；學習率為3*10^-4，在125個epoch和250個epoch后均下降到0.1倍。

（2）實驗結果：

（3）方法效果可視化：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文閱讀筆記（四十二）【AAAI2019】：STA：Spatial-Temporal Attention for Large-Scale Video-based Person Re-Identiﬁcation 論文閱讀筆記（十一）【ICCV2017】：Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identiﬁcation 論文閱讀筆記（三十八）【AAAI2020】：Semantics-Aligned Representation Learning for Person Re-identiﬁcation 論文閱讀筆記（十）【CVPR2016】：Recurrent Convolutional Network for Video-based Person Re-Identiﬁcation 論文閱讀筆記（四十八）【CVPR2019】：Attribute-Driven Feature Disentangling and Temporal Aggregation for Video Person Re-Identiﬁcation 論文閱讀筆記（二十七）【AAAI2019】：A Bottom-Up Clustering Approach to Unsupervised Person Re-Identiﬁcation 論文閱讀筆記（三十）【CVPR2020】：High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identiﬁcation 論文閱讀筆記（三十九）【CVPR2017】：Spindle Net Person Re-identiﬁcation with Human Body Region Guided Feature Decomposition and Fusion 論文閱讀筆記（二十九）【CVPR2020】：Cross-modality Person re-identiﬁcation with Shared-Speciﬁc Feature Transfer 論文閱讀筆記（四十九）【CVPR2020】：Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identiﬁcation

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM