論文閱讀筆記(四十二)【AAAI2019】:STA:Spatial-Temporal Attention for Large-Scale Video-based Person Re-Identification


Introduction

本文主要提出了高效且容易實現的STA框架(Spatial-Temporal Attention)來解決大規模video Reid問題。框架中融合了一些創新元素:幀選取、判別力局部挖掘、不帶參特征融合、視頻內正則化項。

 

Proposed Method

(1)總體思路:

先通過骨干網絡提取特征映射,再將特征映射通過STA框架生成2D的注意力得分矩陣。為了降低視頻內各幀的差異,采用了視頻內正則化項來評估視頻內相似度。采用空間權重最大化、時間權重平均化的策略獲得兩個視頻級特征映射。最后通過級聯得到全局特征映射,進行平均池化和全連接層得到視頻級特征向量。采用的損失函數為softmax損失和三元組損失。

 

(2)STA框架:

① 骨干網絡:

采用了Resnet50,進行了如下改進:將conv5的步長改為1,得到的特征映射尺寸為2048*16*8。輸入的視頻采用隨機采樣,取N幀:,得到特征映射為:

 

② STA模塊:

之前提出的時空注意力方法存在以下缺點:CNN層多計算量大;輸入的視頻序列的幀數需要固定;沒有關注到區域之間的空間關系(沒有理解?);時空兩種注意力由兩個不同的模型提取。

通過骨干網絡提取得到特征映射,每幀通過L2正則化在通道維度生成注意力映射,具體計算為:

a將每幀分割為K塊,由此每幀都得到若干特征映射、注意力映射:

在第k個區域的n幀上采用L1正則化,得到該區域的空間注意力得分:

由此可以得到整個視頻的空間注意力得分,為N*K規格的矩陣S。

直接比較不同幀相同區域的注意力得分,通過L1計算獲得時空注意力得分,為:

 

③ 視頻內正則化:

同一個視頻內部的行人幀需要表示相近的特征,常用的一個方法是增加一個分類損失來確保所有幀都屬於同一個人,但一些噪聲樣本會增大訓練過程的不穩定性。第二個方法是KL散度來衡量幀之間的相似度,但是在注意力映射中存在很多接近0的元素,在KL散度中的log計算中會趨近於無窮,帶來訓練的不穩定。為了限定視頻內各幀的相似,且避免只關注到一幀的情況,本文采用了視頻內正則化項。具體為:

定義G為不同幀的注意力映射圖:

假設為不同的兩幀注意力映射,計算兩者的F范式為:

最終將其結合進損失函數,即為:

 

④ 特征融合策略:

最終concat得到特征通過平均池化和全連接層得到特征向量X,即:

 

⑤ 損失函數:

采用了三元組損失和softmax損失:

 

Experiment

(1)實驗設置:

① 數據集設置:Mars、DukeMTMC-VideoReID

② 參數設置:每個視頻隨機選取N=4幀,區域划分為K=4份,每個batch選取16個ID各4個視頻;三元組損失的margin=0.3;采用Adam優化器,weight decay=0.0005;lr=0.0003,並在200和400次迭代時下降到1/10,總共迭代800次。實驗在兩個NVIDIA TITAN X GPU上訓練。

 

(2)實驗結果:

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM