Introduction
(1)Motivation:
當前的一些video-based reid方法在特征提取、損失函數方面不統一,無法客觀比較效果。本文作者將特征提取和損失函數固定,對當前較新的4種行人重識別模型進行比較。
(2)Contribution:
① 對四種ReId方法(temporal pooling, temporal attention, RNN and 3D conv)進行科學合理的比較;
② 提出了一種采用時空卷積提取時間特征的注意力提取網絡。
Method
(1)視頻片編碼(video clip encoder):
將視頻切成若干片段 {ck},每個片段含有 T 幀,將每個片段編碼成 D 維特征向量 fc ,視頻的特征為這些片段取平均值。
① 3D CNN:采用3D ResNet模型,將最后一個分類層替換為行人身份的輸出,將 T 幀輸入網絡中,輸出即為特征表示。
對於 2D CNN:采用ResNet-50模型,每次輸入一幀圖像,每個片段提取 T 次特征,即 {fct},t 屬於 [1, T],即 T*D 的特征矩陣,再采用以下方法將特征壓縮到特征向量 fc 中。
② 時間池化(temporal pooling):考慮最大池化和平均池化,即:
③ 時間注意力(temporal attention):應用注意力權重,設第 c 個視頻段權重因子為 act,其中 t 屬於 [1, T]:
Resnet-50的最后卷積層規格 [w, h, 2048],其中 w 和 h 取決於輸入圖片的尺寸。
注意力提取網絡的輸入規格 [T, w, h, 2048],輸出 T 個注意力得分。
考慮兩種注意力網絡:
空間卷積+全連接(spatial conv + FC):卷積層規格(kernel = w*h,input channel number = 2048,output channel number = dt),全連接層規格(input channel number = dt,output channel number = 1),輸出結果為 sct,其中 t 屬於 [1, T].
時空聯合卷積(spatial + temporal conv):先通過空間卷積層(kernel = w*h,input channel number = 2048,output channel number = dt),再通過時間卷積層(個人理解參數3的含義是每個元素是由三幀計算而得,input channel number = dt,output channel number = 1),輸出結果為 sct,其中 t 屬於 [1, T].
使用softmax計算注意力得分 act:
結合正則化(使用sigmoid函數):
④ RNN:考慮兩種方法:
直接把隱藏層元素 hT 作為最后結果,即:
計算 RNN 輸出 {ot} 的平均值,即:
(2)損失函數:
考慮兩種損失函數,三元組損失(Batch Hard triplet loss)和交叉熵損失(Softmax cross-entropy loss)。
每個batch含有 P 個行人視頻,每個視頻含有 K 個視頻片段,即每個batch含有 PK 個視頻片段,三元組損失為:
交叉熵損失為:
如何理解?
損失函數:
(3)相似度計算:
通過 L2 距離,計算視頻特征的相似度。
Evaluation
(1)實驗設置:
數據集:MARS
參數設置:batch size = 32,每個行人抽取4段tracklets,learning rate = 0.0001/0.0003,視頻幀的規格為 224*112.(關於batch的設置描述模糊)
(2)實驗結果:
① 3D CNN實驗比較:
② Temporal pooling實驗比較:
③ Temporal attention實驗比較:
④ RNN實驗比較:
⑤ 對比方法: