論文閱讀筆記(十三)【arxiv2018】:Revisiting Temporal Modeling for Video-based Person ReID


Introduction

(1)Motivation:

當前的一些video-based reid方法在特征提取、損失函數方面不統一,無法客觀比較效果。本文作者將特征提取和損失函數固定,對當前較新的4種行人重識別模型進行比較。

 

(2)Contribution:

① 對四種ReId方法(temporal pooling, temporal attention, RNN and 3D conv)進行科學合理的比較;

② 提出了一種采用時空卷積提取時間特征的注意力提取網絡。

 

Method

(1)視頻片編碼(video clip encoder):

將視頻切成若干片段 {ck},每個片段含有 T 幀,將每個片段編碼成 D 維特征向量 fc ,視頻的特征為這些片段取平均值。

① 3D CNN:采用3D ResNet模型,將最后一個分類層替換為行人身份的輸出,將 T 幀輸入網絡中,輸出即為特征表示。

對於 2D CNN:采用ResNet-50模型,每次輸入一幀圖像,每個片段提取 T 次特征,即 {fct},t 屬於 [1, T],即 T*D 的特征矩陣,再采用以下方法將特征壓縮到特征向量 fc 中。

② 時間池化(temporal pooling):考慮最大池化和平均池化,即:

③ 時間注意力(temporal attention):應用注意力權重,設第 c 個視頻段權重因子為 act,其中 t 屬於 [1, T]:

Resnet-50的最后卷積層規格 [w, h, 2048],其中 w 和 h 取決於輸入圖片的尺寸。

注意力提取網絡的輸入規格 [T, w, h, 2048],輸出 T 個注意力得分。

考慮兩種注意力網絡:

  空間卷積+全連接(spatial conv + FC):卷積層規格(kernel = w*h,input channel number = 2048,output channel number = dt),全連接層規格(input channel number = dt,output channel number = 1),輸出結果為 sct,其中 t 屬於 [1, T].

  時空聯合卷積(spatial + temporal conv):先通過空間卷積層(kernel = w*h,input channel number = 2048,output channel number = dt),再通過時間卷積層(個人理解參數3的含義是每個元素是由三幀計算而得,input channel number = dt,output channel number = 1),輸出結果為 sct,其中 t 屬於 [1, T].

使用softmax計算注意力得分 act

結合正則化(使用sigmoid函數):

④ RNN:考慮兩種方法:

  直接把隱藏層元素 hT 作為最后結果,即:

  

  計算 RNN 輸出 {ot} 的平均值,即:

  

 

(2)損失函數:

考慮兩種損失函數,三元組損失(Batch Hard triplet loss)和交叉熵損失(Softmax cross-entropy loss)。

每個batch含有 P 個行人視頻,每個視頻含有 K 個視頻片段,即每個batch含有 PK 個視頻片段,三元組損失為:

交叉熵損失為:

如何理解?

損失函數:

 

(3)相似度計算:

通過 L2 距離,計算視頻特征的相似度。

 

Evaluation

(1)實驗設置:

數據集:MARS

參數設置:batch size = 32,每個行人抽取4段tracklets,learning rate = 0.0001/0.0003,視頻幀的規格為 224*112.(關於batch的設置描述模糊)

 

(2)實驗結果:

① 3D CNN實驗比較:

 

② Temporal pooling實驗比較:

 

③ Temporal attention實驗比較:

 

④ RNN實驗比較:

 

⑤ 對比方法:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM