轉載請注明出處:https://www.cnblogs.com/White-xzx/
原文地址:https://arxiv.org/abs/1709.09930
Github: https://github.com/xh-liu/HydraPlus-Net
如有不准確或錯誤的地方,歡迎交流~
HP-Net是一個基於注意力機制(attention-based)的深度神經網絡,將多層注意力機制圖多向映射到不同的特征層。
【HP-Net Adavantage】
(1)模型能夠從淺層到語義層捕獲注意力;
(2)挖掘多尺度的可選注意力特征,充實最終的行人特征表示;
(3)提取出細節和局部特征來充實高層全局特征,這些特征在細粒度的行人分析任務中是非常重要的;
(4)提出多方向注意機制模塊(multi-directional attention,MDA),提取多層(multiple level)特征,包含局部和全局特征,進行多層特征融合,進行細粒度的行人分析;
multi-level: (a)語義層:分辨相似外觀行人的局部區域特征,如長短發、長短袖; (b)淺層:捕捉行人的衣服的條紋;
multi-scale: (c)(d)多尺度特征,描述行人特點 (c)小尺度特征對應‘打電話’; (d)大尺度全局理解描述‘性別’
【HydraPlus-Net網絡結構】
(1)Main Net(M-Net):單純的CNN結構,論文的實現是基於inception_v2,包含三個inception block,還包含幾個低層卷積層
(2)Attentive Feature Net(AF-Net):三個分支,每個分支有三個inception_v2 block和一個MDA
【Attentive Feature Network】
AF-Net包含3個MDA增強的網絡分支,
AF-Net和M-Net共享卷積框架,他們的輸出級聯后經過全局平均池化和全連接層融合,最終的輸出映射到屬性logits用於屬性識別,或特征向量用於再認證。
為inception i模塊的輸出經過1 1conv、BN、ReLU產生的注意力圖,並被相乘到inception k的輸出特征圖,產生多層多尺度注意力特征,傳送到后續的層,MDA模塊的最后L個注意力特征級聯作為最終特征表示,k∈{1,2,3}
【Attention Mechanism 注意力機制】
傳統基於注意力的模型,將注意力圖返回輸入到原相同的模塊(右圖紅線),通過應用注意力圖到相鄰的模塊來擴展此機制;HP-Net應用不同的注意力圖到多個模塊(下圖b),在相同的空間分布下融合多層特征。
【Multi-level Attention Map 多層注意力圖】
不同模塊學習得到注意力圖在尺度和細節上差異非常大,如下圖(a),高層通常更粗糙、更聚焦語義區域(特定物體),如,低層捕獲局部特征和細節(邊緣和紋理),如
。因此,使用MDA模塊融合不同層注意力特征,可以收集不同層的語義信息,提供更多可選特征表達。
上圖為每個輸入圖像提取某level的L = 8 attention channels 的特征圖,不同MDA作用下,多級注意力特征的定性演示
(a)淺層屬性,如上衣類型,需要低層注意力連接,紋理 -> T-Shirt (b)語義或目標級別的屬性,如手機,需要高層注意力連接
【Stage-wise Training 分階段訓練】
①訓練M-Net,提取基本特征;
②將M-Net復制三次,得到AF-Net的三個分支,每個MDA模塊有三個子分支組成,即臨近的三個不同的inception blocks,依次微調每個blocks,即共有9個blocks需要微調;
③微調完成后,固定AF-Net和M-Net,訓練全局平均池化層(GAP)和全連接層(FC);
④輸出層:屬性識別使用交叉熵損失函數,行人ReID使用softmax函數。
【實驗結果】