(摘自王逍同學的論文arxiv-2019+Pedestrian Attribute Recognition A Survey)
1. 數據集
Dataset | Pedestrians | Attribute | Source |
---|---|---|---|
PETA Dataset | 19000 | 61 binary and 4 multi-class attributes | outdoor & indoor |
RAP Dataset | 41585 | 69 binary and 3 multi-class attributes | indoor |
RAP 2.0 Dataset | 84928 | 69 binary and 3 multi-class attributes | indoor |
PA-100K Dataset | 10w | 26 binary attributes | outdoor |
WIDER Attribute Dataset | 13789 | 14 binary attributes | WIDER images |
Market-1501_Attribute | 32668 | 26 binary and 1 multi-class attributes | outdoor |
DukeMTMC-Attribute | 34183 | 23 binary attributes | outdoor |
Parse27k Dataset | 27000 | 8 binary and 2 multi-class orientation attributes | outdoor |
APiS | 3661 | 11 binary and 2 multi-class attributes | KITTI , CBCL Street Scenes,INRIA and SVS |
Database of Human Attributes | 9344 | 27 binary attributes | image site Flickr |
CRP Dataset | 27454 | 1 binary attributes and 13 multi-class attributes | outdoor |
Clothing Attributes Dataset | 1856 | 23 binary attributes and 3 multi-class attributes | Sartorialist and Flickr |
Berkeley-Attributes of People dataset | 8035 | 9 binary attributes | H3D dataset PASCAL VOC 2010 |
備注: 加粗的數據集是已經獲取到的,RAP和RAP2.0數據集需要聯系作者,之后會拿到.
2. 實現方法總結及已有資源
Github資源(圖中橙色框標注):
- PANDA (CVOR-2014): <局部>
- HydraPlus-Net (ICCV-2017):<注意力>
- WPAL-network (BMVC-2014)<改進損失函數>
3.詳細介紹
3.1 基於全局特征的屬性檢測方法
3.1.1 FT-CNN(Re-id Using CNN Features Learned from Combination of Attributes(ICPR2016))
在Alexnet的4096維特征上,用多個全連接分類器表征各個特征。很明顯慘不忍睹。
3.2 基於局部特征的行人屬性檢測方法
3.2.1 Poselets (ICCV-2011)
3.2.2 PANDA(CVPR-2014)
其中關鍵poselet采用3.2.1《Describing people: A poselet-based
approach to attribute classification》中的划分方法。通過融合局部特征和整體特征,提高了准確率。
3.2.3 MLCNN (ICB-2015)
采用網格划分,部分融合
3.2.4 ARAP (BMVC2016)
自適應檢測關鍵點和對應Bbox,然后進行屬性檢測。端到端。
3.2.5 PGDM (ICME-2018)
3.2.6 LGNet (BMVC-2018)
3.2.7 總結
算法結合了全局和細粒度部件的特征,其中身體部位的定位是通過分割算法得到,如:part detection, pose estimation, poselets or proposal generation algorithm.
算法整體准確率和部件分割的算法有很大關系。
3.3 基於注意力機制的屬性檢測方法
3.3.1 HydraPlus-Net (ICCV-2017)
SenseTime的論文,將多層注意力機制圖多向映射到不同的特征層。。HP-net包含兩部分,M-Net和AF-Net。
- Main Net(M-Net):
單純的CNN結構,論文的實現是基於inception_v2,包含三個inception block,還包含幾個低層卷積層; - Attentive Feature Net(AF-Net):三個分支,每個分支有三個inception_v2 block和一個MDA
AF-Net包含三個子網絡分支,並使用MDA模塊增強,即F(αi)F(αi),其中αiαi是由inception塊輸出特征生成的注意力圖,圖中使用黑實線標記。隨后應用到kth塊的輸出,圖中用虛紅線標示。每個MDA模塊,有一條注意力生成鏈接,三條注意力特征構造鏈接。不同的MDA模塊,注意力圖由不同的inception模塊生成,之后乘到不同層的特征圖,生成不同層在注意特征。 MDA模塊的一個示例如下圖所示:
以下是可視化特征: