論文閱讀筆記（六十九）【CVPR2021】：BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification

本文轉載自查看原文 2021-05-13 09:28 1143 行人重識別

Introduction

在空間維度上，現有video reid方法局限於把所有幀在相同分辨率下進行特征提取，造成了特征冗余，如圖(a)。

在時間維度上，現有方法要么采用long-term要么采用short-term，也有一些方法同時考慮了兩者，卻賦予兩者相同的權重來融合。但如圖(b)所示，當存在遮擋情況時，需要long-term來提供更多信息，當存在快速移動情況時，需要short-term來提取動作模式等。因此需要動態地捕獲short-term和long-term的特征。

作者提出了Bilateral Complementary Network (BiCnet)來提取不同幀中的互補空間特征。其包含了兩個分支，Detail Branch對原分辨率進行空間特征提取，Context Branch對下采樣圖像進行long-term特征提取。之后在每個分支上增加了多個parallel spatial attention模塊，來增強局部注意區域的多樣性。最后將兩個分支的互補信息進行融合。

此外作者提出了Temporal Kernel Selection (TKS)模塊來動態度量short-term和long-term的時序關聯。在時間維度上，同時使用小的kernel和大的kernel來捕獲時序關聯。並且TKS依據全局信息選擇了一個dominant temporal scale (主導時序尺度)。將BiCnet和TKS結合，命名為BiCnet-TKS。

Proposed Method

(1) Bilateral Complementary Network：

① Two-branch Architecture：

假設輸入的視頻序列為，划分為和(B表示Big；S表示small，分辨率是B的一半)，分別輸入到兩個分支中，即：

最終將兩個特征求平均值。

② Cross-Scale Paths：

在兩個分支間設計了Cross-Scale Paths(CSP)將Detail分支的信息傳播到Context分支中。假設兩個分支的中間特征圖為和。由於兩者的結構不同，需要改變前者的特征圖維度，即：

其中為最大池化，*為卷積，為reshape操作使得維度從轉為。特征圖維度一致后將兩者進行相加融合。

③ Diverse Attentions Operation：

每個分支都嵌入了DAO模塊來增強注意力的多樣性。對第一幀進行全局平均池化和softmax，獲取權重圖，而后續幀的權重圖計算為：通過卷積層壓縮通道為1，空間維度reshape為HW維，在、通過全連接層映射，再重新回復到HxW維，最后進行softmax得到權重。為了訓練不同幀關注不同區域，設計了divergence regularization term，即：