論文閱讀筆記（十三）【arxiv2018】：Revisiting Temporal Modeling for Video-based Person ReID

本文轉載自查看原文 2020-01-08 10:28 680 行人重識別

Introduction

（1）Motivation：

當前的一些video-based reid方法在特征提取、損失函數方面不統一，無法客觀比較效果。本文作者將特征提取和損失函數固定，對當前較新的4種行人重識別模型進行比較。

（2）Contribution：

① 對四種ReId方法（temporal pooling, temporal attention, RNN and 3D conv）進行科學合理的比較；

② 提出了一種采用時空卷積提取時間特征的注意力提取網絡。

Method

（1）視頻片編碼（video clip encoder）：

將視頻切成若干片段 {c_k}，每個片段含有 T 幀，將每個片段編碼成 D 維特征向量 f_c ，視頻的特征為這些片段取平均值。

① 3D CNN：采用3D ResNet模型，將最后一個分類層替換為行人身份的輸出，將 T 幀輸入網絡中，輸出即為特征表示。

對於 2D CNN：采用ResNet-50模型，每次輸入一幀圖像，每個片段提取 T 次特征，即 {f_c^t}，t 屬於 [1, T]，即 T*D 的特征矩陣，再采用以下方法將特征壓縮到特征向量 f_c 中。

② 時間池化（temporal pooling）：考慮最大池化和平均池化，即：

③ 時間注意力（temporal attention）：應用注意力權重，設第 c 個視頻段權重因子為 a_c^t，其中 t 屬於 [1, T]：

Resnet-50的最后卷積層規格 [w, h, 2048]，其中 w 和 h 取決於輸入圖片的尺寸。

注意力提取網絡的輸入規格 [T, w, h, 2048]，輸出 T 個注意力得分。

考慮兩種注意力網絡：

　　空間卷積+全連接（spatial conv + FC）：卷積層規格（kernel = w*h，input channel number = 2048，output channel number = d_t），全連接層規格（input channel number = d_t，output channel number = 1），輸出結果為 s_c^t，其中 t 屬於 [1, T].

　　時空聯合卷積（spatial + temporal conv）：先通過空間卷積層（kernel = w*h，input channel number = 2048，output channel number = d_t），再通過時間卷積層（個人理解參數3的含義是每個元素是由三幀計算而得，input channel number = d_t，output channel number = 1），輸出結果為 s_c^t，其中 t 屬於 [1, T].

使用softmax計算注意力得分 a_c^t：