1. Pose-Guided Multi-Granularity Attention Network for Text-Based Person Search【AAAI2020】
(1) 視覺特征提取:
作者認為人體姿態信息可以引導局部特征的匹配,因此引入了2017年提出的PAF模型進行姿態估計,提取14個關鍵點。由於行人會受到遮擋等情況,關鍵點也並非精確,其置信圖如下圖所示。關鍵點置信圖存在兩個作用:
① 與原圖的3個通道級聯,得到17通道的初始數據,輸入VGG-16 (ResNet-50也同理)中,提取[12, 4, 512]尺寸的特征圖,再將特征圖按PCB的策略划分為6個條紋,每個條紋在第一個維度上取平均,得到尺寸為[6, 4, 512]的特征圖,將其視為24個局部,每個局部對應512維特征向量。
② 14個置信圖被用於與名詞短語之間的語義對齊。
(2) 文本特征提取:
文本特征采用Bi-LSTM提取,其中名詞短語采用2002年提出的NLTK進行查找,並同樣用Bi-LSTM提取名詞短語的特征。
(3) Coarse Alignment Network:
用余弦相似度計算每個圖像局部區域和整體文本的特征相似度,最終整體圖像與整體文本的相似度得分為:閾值
=1/24
(4) Fine-Grained Alignment Network:
14個關鍵點被划分為6個身體區域,每個區域的特征圖相加,並通過Pose CNN投影為b維的特征向量,即:,每個名詞短語特征都投影到相同的特征維度,即:
。計算第1個區域的文本特征,即:
其余5個區域的文本特征同理。相同的機制也應用到了視覺特征,即:。
圖文細粒度的相似度為:
(5) 損失函數:
采用了Identify-aware的思想,對不同模態采用了ID損失。並對不同模態之間采用了三元組損失。對姿態的特征p進行分類損失,使得這6個特征能表示不同類別。
(6) 實驗結果:
2. ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural Language【arXiv2020】
(1) Align Loss:
采用余弦相似度評估圖文特征距離,即:
約束表示為:
具體化為Alignment Loss為:
(2) K-reciprocal Sampling:
通俗理解為:找到包含同一個屬性且互相最相似的樣本對。
(3) 實驗結果:
3. Person Search with Natural Language Description【CVPR2017】