論文閱讀筆記（四十二）【AAAI2019】：STA：Spatial-Temporal Attention for Large-Scale Video-based Person Re-Identiﬁcation

本文轉載自查看原文 2020-06-21 17:12 581 行人重識別

Introduction

本文主要提出了高效且容易實現的STA框架（Spatial-Temporal Attention）來解決大規模video Reid問題。框架中融合了一些創新元素：幀選取、判別力局部挖掘、不帶參特征融合、視頻內正則化項。

Proposed Method

（1）總體思路：

先通過骨干網絡提取特征映射，再將特征映射通過STA框架生成2D的注意力得分矩陣。為了降低視頻內各幀的差異，采用了視頻內正則化項來評估視頻內相似度。采用空間權重最大化、時間權重平均化的策略獲得兩個視頻級特征映射。最后通過級聯得到全局特征映射，進行平均池化和全連接層得到視頻級特征向量。采用的損失函數為softmax損失和三元組損失。

（2）STA框架：

① 骨干網絡：

采用了Resnet50，進行了如下改進：將conv5的步長改為1，得到的特征映射尺寸為2048*16*8。輸入的視頻采用隨機采樣，取N幀：，得到特征映射為：。

② STA模塊：

之前提出的時空注意力方法存在以下缺點：CNN層多計算量大；輸入的視頻序列的幀數需要固定；沒有關注到區域之間的空間關系（沒有理解？）；時空兩種注意力由兩個不同的模型提取。

通過骨干網絡提取得到特征映射，每幀通過L2正則化在通道維度生成注意力映射，具體計算為：

a將每幀分割為K塊，由此每幀都得到若干特征映射、注意力映射：

在第k個區域的n幀上采用L1正則化，得到該區域的空間注意力得分：

由此可以得到整個視頻的空間注意力得分，為N*K規格的矩陣S。

直接比較不同幀相同區域的注意力得分，通過L1計算獲得時空注意力得分，為：

③ 視頻內正則化：

同一個視頻內部的行人幀需要表示相近的特征，常用的一個方法是增加一個分類損失來確保所有幀都屬於同一個人，但一些噪聲樣本會增大訓練過程的不穩定性。第二個方法是KL散度來衡量幀之間的相似度，但是在注意力映射中存在很多接近0的元素，在KL散度中的log計算中會趨近於無窮，帶來訓練的不穩定。為了限定視頻內各幀的相似，且避免只關注到一幀的情況，本文采用了視頻內正則化項。具體為：

定義G為不同幀的注意力映射圖：

假設為不同的兩幀注意力映射，計算兩者的F范式為：

最終將其結合進損失函數，即為：

④ 特征融合策略：

最終concat得到特征通過平均池化和全連接層得到特征向量X，即：

⑤ 損失函數：

采用了三元組損失和softmax損失：

Experiment

（1）實驗設置：

① 數據集設置：Mars、DukeMTMC-VideoReID

② 參數設置：每個視頻隨機選取N=4幀，區域划分為K=4份，每個batch選取16個ID各4個視頻；三元組損失的margin=0.3；采用Adam優化器，weight decay=0.0005；lr=0.0003，並在200和400次迭代時下降到1/10，總共迭代800次。實驗在兩個NVIDIA TITAN X GPU上訓練。

（2）實驗結果：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 論文閱讀 | Compressing Large-Scale Transformer-Based Models: A Case Study on BERT COCAS: A Large-Scale Clothes Changing Person Dataset for Re-identification 論文閱讀筆記（三十二）【ACM Multimedia 2018】：Learning Discriminative Features with Multiple Granularities for Person Re-Identification Efficient Large-Scale Stereo Matching論文解析【CVPR 2019】論文閱讀：3D human pose estimation in video with temporal convolutions and semi-supervised training 論文閱讀：Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs(2019 ACL) 論文筆記：（2019）GAPNet: Graph Attention based Point Neural Network for Exploiting Local Feature of Point Cloud [論文閱讀] Person Re-identification: Past, Present and Future 論文細讀 | Very Deep Convolutional Networks for Large-Scale Image Recognition 人臉表情 - 1 - Suppressing Uncertainties for Large-Scale Facial Expression Recognition - 1 - 論文學習