Introduction
當前的part-based reid方法分為如下三類:
① 采用人體部件位置的先驗知識或者姿態估計來定位部件區域(如把圖片按若干個水平區域划分);
② 通過部件定位方法來識別部件;
③ 采用注意力機制來關注部件區域。
作者提出了一個全局、局部不同粒度特征聯合學習策略,即 Multiple Granularity Network(MGN),如下圖:
Multiple Granularity Network
IDE baseline 提取出的行人特征映射圖如下所示,可以發現即使沒有采用注意力機制,深度神經網絡依然能夠提取出行人肢體的語義信息。
(1)網絡結構:
三個網絡分支的細節為:
① 上層分支為全局特征提取。先采用步長為2的下采樣,緊接着全局最大池化得到特征映射,再進行1*1卷積、batch正則化、ReLU激活,把2048維的特征下降到256維的
;
② 中間分支和下層分支不采用下采樣,區別在於中間分支將特征map划分為2塊,下層分支將特征map划分為3塊,分別對全局和局部進行池化。
③ 在測試階段,所有的256維度的特征向量進行concat,得到最終的特征向量進行度量。
(2)損失函數:
① softmax損失:
其中對應的是第 k 類的權重,對於三層的局部特征和全局特征均計算softmax損失。
② 三元組損失:
對於三層的全局特征計算三元組損失。
Experiment