Introduction
在空間維度上,現有video reid方法局限於把所有幀在相同分辨率下進行特征提取,造成了特征冗余,如圖(a)。

在時間維度上,現有方法要么采用long-term要么采用short-term,也有一些方法同時考慮了兩者,卻賦予兩者相同的權重來融合。但如圖(b)所示,當存在遮擋情況時,需要long-term來提供更多信息,當存在快速移動情況時,需要short-term來提取動作模式等。因此需要動態地捕獲short-term和long-term的特征。

作者提出了Bilateral Complementary Network (BiCnet)來提取不同幀中的互補空間特征。其包含了兩個分支,Detail Branch對原分辨率進行空間特征提取,Context Branch對下采樣圖像進行long-term特征提取。之后在每個分支上增加了多個parallel spatial attention模塊,來增強局部注意區域的多樣性。最后將兩個分支的互補信息進行融合。
此外作者提出了Temporal Kernel Selection (TKS)模塊來動態度量short-term和long-term的時序關聯。在時間維度上,同時使用小的kernel和大的kernel來捕獲時序關聯。並且TKS依據全局信息選擇了一個dominant temporal scale (主導時序尺度)。將BiCnet和TKS結合,命名為BiCnet-TKS。
Proposed Method

(1) Bilateral Complementary Network:
① Two-branch Architecture:
假設輸入的視頻序列為
,划分為
和
(B表示Big;S表示small,分辨率是B的一半),分別輸入到兩個分支中,即:

最終將兩個特征求平均值。
② Cross-Scale Paths:
在兩個分支間設計了Cross-Scale Paths(CSP)將Detail分支的信息傳播到Context分支中。假設兩個分支的中間特征圖為
和
。由於兩者的結構不同,需要改變前者的特征圖維度,即:
![]()
其中
為最大池化,*為卷積,
為reshape操作使得維度從
轉為
。特征圖維度一致后將兩者進行相加融合。
③ Diverse Attentions Operation:
每個分支都嵌入了DAO模塊來增強注意力的多樣性。對第一幀進行全局平均池化和softmax,獲取權重圖
,而后續幀的權重圖計算為:通過卷積層壓縮通道為1,空間維度reshape為HW維,在、通過全連接層映射,再重新回復到HxW維,最后進行softmax得到權重。為了訓練不同幀關注不同區域,設計了divergence regularization term,即:
![]()
作者采用了dot-product相似度(余弦相似度),上述的公式表示兩個區域的區別度(越大越好),因此下面divergence loss越小越好:

(2) Temporal Kernel Selection Block:

TKS對一個特征圖序列
進行處理,分為三個步驟:分割、選擇、激勵。
① Partition Operation:
由於不同幀的行人圖像存在不對齊現象,因此采用分塊策略,把每幀分為hxw個空間塊,再對每個塊采用平均池化,得到region-level的特征圖![]()
② Select Operation:
采用K個分支,每個分支采用不同卷積核尺寸的1D空洞卷積,將K個分支的輸出相加,再進行全局平均池化,得到全局特征,即:

對全局特征進行K個投影,再進行正則化,即:

最后將K個分支的權重進行加權求和,即:

其中
是reshape。
③ Excite Operation:
基於殘差的思想,最終的特征圖可以計算為:
,
,其中
為最鄰近上采樣。TKS保持了原始特征圖尺寸,因此可以插入網絡任何階段。
(3) Overall Architecture:
作者采用預訓練的ResNet-50作為骨干網絡,DAO插入在第三個stage后,而TKS可以插入在任何階段。兩個分支共享權重以降低參數量。
Experiment

