Relation-Aware Global Attention for Person Re-identification(CVPR2020)
本文主要提出了一個Relation-Aware Global Attention(RGA)模塊,該模塊可以提取空間上不同區域之間的關系向量,從而每個區域的特征能夠“抓住局部”,同時“把握全局”。
該注意力的思想是計算每個區域特征向量與其它區域特征向量的關系,並進行concat,再評估注意力得分。
作者將這個思想應用到了空間維度和通道維度。
① 空間維度:定義兩個空間node的特征向量為,由兩個1x1卷積、BN、ReLU構成。有此獲得空間的relation映射圖。重構的特征映射由三部分組成,第一部分為原始的特征映射的投影,第二部分為relation映射中縱向獲取關系向量,第三部分橫向獲取關系向量,特征的融合過程為:原始特征通過1x1卷積、BN、ReLU、通道池化壓縮為1維度的映射,后兩部分的關系特征通過1x1卷積、BN、ReLU獲得關系映射,最后concat。最后的空間注意力包含兩層卷積:
。
② 通道維度:將每個通道的H*W特征轉為特征向量。之后同上。
Multi-Granularity Reference-Aided Attentive Feature Aggregation for Video-based Person Re-identification(CVPR2020)
本文提出了Multi-Granularity Reference-aided Attentive Feature Aggregation(MG-RAFA)網絡框架。該方法考慮到行人的圖片存在不同尺度的特征,因此采用了多粒度的網絡結構,為了把我全局的特征,采用了關系特征來生成注意力。
左圖展示了單個粒度的特征提取過程,按像素空間划分成若干區域特征向量,每個特征向量都與其它區域特征計算關系特征,並級聯得到新特征。第一層:通過骨干網絡提取各幀的特征映射,然后采用時間維度的平均值作為參考幀。第二層:各幀的區域特征與參考幀計算相關度:,通過1x1卷積、BN、ReLU,再向量相乘。將原始特征映射與關系特征進行兩層卷積變換得到注意力得分,為:
。得到的注意力得分通過Softmax,再與原始特征相乘。
右圖展示了多粒度的特征提取過程。按通道維度划分成3組,其余兩組通過空間平均池化進行尺寸的壓縮,最后將特征進行級聯。
損失函數為:
Relation Network for Person Re-identification(AAAI2020)
本文的兩個貢獻:針對局部特征,提出了一個關系特征提取網絡;針對全局特征,提出了一個新的池化方法GCP來提取對比特征。本文提出的關系特征與上面兩篇CVPR有一個區別:上文為依據node的特征向量提取的關系特征,而本文是依據part特征向量。
局部關系向量的計算過程:當前part通過1x1卷積壓縮特征,剩余part平均池化后通過1x1卷積壓縮特征,兩者級聯后壓縮特征,再與當前part相加,與殘差的思想相似。
全局GCP的計算過程:將平均池化、最大池化得到的特征向量相減,得到對比特征,對比特征和最大池化特征進行1x1卷積壓縮后級聯,后續計算與上方類似。