【論文閱讀】HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis

本文轉載自查看原文 2019-01-01 00:26 1236 論文閱讀/ 深度學習/ pedestrian analysis/ person re-id

如有不准確或錯誤的地方，歡迎交流~

　　HP-Net是一個基於注意力機制（attention-based）的深度神經網絡，將多層注意力機制圖多向映射到不同的特征層。

【HP-Net Adavantage】

　　（1）模型能夠從淺層到語義層捕獲注意力；

　　（2）挖掘多尺度的可選注意力特征，充實最終的行人特征表示；

　　（3）提取出細節和局部特征來充實高層全局特征，這些特征在細粒度的行人分析任務中是非常重要的；

　　（4）提出多方向注意機制模塊（multi-directional attention，MDA），提取多層（multiple level）特征，包含局部和全局特征，進行多層特征融合，進行細粒度的行人分析；

　　　multi-level：（a）語義層：分辨相似外觀行人的局部區域特征，如長短發、長短袖；（b）淺層：捕捉行人的衣服的條紋；

　　 multi-scale：（c）（d）多尺度特征，描述行人特點（c）小尺度特征對應‘打電話’；（d）大尺度全局理解描述‘性別’

【HydraPlus-Net網絡結構】

　　（1）Main Net（M-Net）：單純的CNN結構，論文的實現是基於inception_v2，包含三個inception block，還包含幾個低層卷積層

　　（2）Attentive Feature Net（AF-Net）：三個分支，每個分支有三個inception_v2 block和一個MDA

【Attentive Feature Network】

　　AF-Net包含3個MDA增強的網絡分支，

　　AF-Net和M-Net共享卷積框架，他們的輸出級聯后經過全局平均池化和全連接層融合，最終的輸出映射到屬性logits用於屬性識別，或特征向量用於再認證。

　　為inception i模塊的輸出經過1 1conv、BN、ReLU產生的注意力圖，並被相乘到inception k的輸出特征圖，產生多層多尺度注意力特征，傳送到后續的層，MDA模塊的最后L個注意力特征級聯作為最終特征表示，k∈{1,2,3}

【Attention Mechanism 注意力機制】

　　傳統基於注意力的模型，將注意力圖返回輸入到原相同的模塊（右圖紅線），通過應用注意力圖到相鄰的模塊來擴展此機制；HP-Net應用不同的注意力圖到多個模塊（下圖b），在相同的空間分布下融合多層特征。

【Multi-level Attention Map 多層注意力圖】

　　不同模塊學習得到注意力圖在尺度和細節上差異非常大，如下圖(a)，高層通常更粗糙、更聚焦語義區域（特定物體），如，低層捕獲局部特征和細節（邊緣和紋理），如。因此，使用MDA模塊融合不同層注意力特征，可以收集不同層的語義信息，提供更多可選特征表達。

　　上圖為每個輸入圖像提取某level的L = 8 attention channels 的特征圖，不同MDA作用下，多級注意力特征的定性演示

　　（a）淺層屬性，如上衣類型，需要低層注意力連接，紋理 -> T-Shirt （b）語義或目標級別的屬性，如手機，需要高層注意力連接

【Stage-wise Training 分階段訓練】

　　①訓練M-Net，提取基本特征；

　　②將M-Net復制三次，得到AF-Net的三個分支，每個MDA模塊有三個子分支組成，即臨近的三個不同的inception blocks，依次微調每個blocks，即共有9個blocks需要微調；

　　③微調完成后，固定AF-Net和M-Net，訓練全局平均池化層（GAP）和全連接層（FC）；

　　④輸出層：屬性識別使用交叉熵損失函數，行人ReID使用softmax函數。

【實驗結果】

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。