論文閱讀筆記(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification


Introduction

在空間維度上,現有video reid方法局限於把所有幀在相同分辨率下進行特征提取,造成了特征冗余,如圖(a)。

在時間維度上,現有方法要么采用long-term要么采用short-term,也有一些方法同時考慮了兩者,卻賦予兩者相同的權重來融合。但如圖(b)所示,當存在遮擋情況時,需要long-term來提供更多信息,當存在快速移動情況時,需要short-term來提取動作模式等。因此需要動態地捕獲short-term和long-term的特征。

作者提出了Bilateral Complementary Network (BiCnet)來提取不同幀中的互補空間特征。其包含了兩個分支,Detail Branch對原分辨率進行空間特征提取,Context Branch對下采樣圖像進行long-term特征提取。之后在每個分支上增加了多個parallel spatial attention模塊,來增強局部注意區域的多樣性。最后將兩個分支的互補信息進行融合。

此外作者提出了Temporal Kernel Selection (TKS)模塊來動態度量short-term和long-term的時序關聯。在時間維度上,同時使用小的kernel和大的kernel來捕獲時序關聯。並且TKS依據全局信息選擇了一個dominant temporal scale (主導時序尺度)。將BiCnet和TKS結合,命名為BiCnet-TKS。

 

Proposed Method

(1) Bilateral Complementary Network:

① Two-branch Architecture:

假設輸入的視頻序列為,划分為(B表示Big;S表示small,分辨率是B的一半),分別輸入到兩個分支中,即:

最終將兩個特征求平均值。

② Cross-Scale Paths:

在兩個分支間設計了Cross-Scale Paths(CSP)將Detail分支的信息傳播到Context分支中。假設兩個分支的中間特征圖為。由於兩者的結構不同,需要改變前者的特征圖維度,即:

其中為最大池化,*為卷積,為reshape操作使得維度從轉為。特征圖維度一致后將兩者進行相加融合。

③ Diverse Attentions Operation:

每個分支都嵌入了DAO模塊來增強注意力的多樣性。對第一幀進行全局平均池化和softmax,獲取權重圖,而后續幀的權重圖計算為:通過卷積層壓縮通道為1,空間維度reshape為HW維,在、通過全連接層映射,再重新回復到HxW維,最后進行softmax得到權重。為了訓練不同幀關注不同區域,設計了divergence regularization term,即:

作者采用了dot-product相似度(余弦相似度),上述的公式表示兩個區域的區別度(越大越好),因此下面divergence loss越小越好:

 

(2) Temporal Kernel Selection Block:

TKS對一個特征圖序列進行處理,分為三個步驟:分割、選擇、激勵。

① Partition Operation:

由於不同幀的行人圖像存在不對齊現象,因此采用分塊策略,把每幀分為hxw個空間塊,再對每個塊采用平均池化,得到region-level的特征圖

② Select Operation:

 采用K個分支,每個分支采用不同卷積核尺寸的1D空洞卷積,將K個分支的輸出相加,再進行全局平均池化,得到全局特征,即:

對全局特征進行K個投影,再進行正則化,即:

最后將K個分支的權重進行加權求和,即:

其中是reshape。

③ Excite Operation:

基於殘差的思想,最終的特征圖可以計算為:,其中為最鄰近上采樣。TKS保持了原始特征圖尺寸,因此可以插入網絡任何階段。

 

(3) Overall Architecture:

作者采用預訓練的ResNet-50作為骨干網絡,DAO插入在第三個stage后,而TKS可以插入在任何階段。兩個分支共享權重以降低參數量。

 

Experiment


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM