Introduction
(1)Motivation:
在匹配過程中,存在行人的不同圖片語義信息不對齊、局部遮擋等現象,如下圖:
(2)Contribution:
① 提出了Spindle Net,包含了多階段ROI池化框架用於提取不同部位的特征,再通過特征融合網絡對不同部位的特征進行融合;
② 設計了SenseReID數據集。
Body Region Proposal Network(RPN)
RPN用於提取行人的區域,分為七個部分:肩膀上、上半身、下半身、左右手、左右腳,如下圖所示:
通過CNN提取得到行人的14個特征映射,每個映射包含了一個關鍵點響應圖,即,其中 X 和 Y 為特征映射的尺寸。特征映射的生成采用了Convolutional Pose Machines(CPM)。然而CPM的計算成本較高,作者對此做出了網絡的簡化,最終得到14個關鍵點坐標,即:
由此7個分區的檢測框:,對應7個關鍵點集合:
。RPN的訓練采用MPII人體姿態數據集,損失函數采用預測響應圖和實際響應圖的歐式距離。
Body Region Guided Spindle Net
(1)概述:
網絡包含了兩個部分:Feature Extraction Network(FEN)和Feature Fusion Network(FFN),如上圖所示。FEN的輸入為行人圖片和區域信息,得到行人的全局特征和七個局部特征,最后通過FFN進行特征融合。
(2)Feature Extraction Network(FEN):
1個全局特征和7個局部特征均通過池化后得到256維的特征向量。FEN包含了3個卷積模塊和2個ROI池化模塊。FEN-C1的輸入為壓縮到96*96的圖片,的空間尺寸為24*24,
通過了ROI池化,得到空間尺寸也為24*24的映射。同理,第二層、第三層的空間尺寸分別為12*12、6*6,最后通過全局平均池化和內積層,壓縮到通道上,為256維特征向量。
(3)Feature Fusion Network(FFN):
特征融合單元包含兩個步驟:① 特征的計算和選擇,采用元素最大策略(理解是三個區域的特征向量每個元素都選值最大的那個,如下圖所示);② 特征的轉換,采用內積計算(理解是對全局、區域特征融合時候采用了內積,將兩個256維向量融合為一個256維向量)。
(4)訓練細節
訓練包含4步:全局特征訓練;固定FEN-C1,訓練三分支網絡;固定FEN-C1和FEN-C2,訓練下方四分支網絡;訓練FFN。
Experiments
(1)數據集設置:
CUHK03、CUHK01、PRID、VIPeR、3DPeS、i-LIDS、Market-1501、CUHK02(只訓練)、PSDB(只訓練)、SenseReID(只評估)
(2)實驗結果: