Introduction
Person search任務的目的是:定位並識別目標行人。其包含了兩個子任務:行人檢測和行人重識別。現有方法主要分為兩類:二步檢索框架和一步二階段檢索框架。前者先通過目標檢測算法定位行人位置,再裁切出行人進行重識別,這類方法比較耗時;后者實現了兩種任務的端到端學習,通過ROI對齊層獲取行人區域(如Faster-RCNN),這類方法存在密集anchor計算復雜的問題以及超參數敏感(anchor數量、尺寸等)的問題。

相比之下,作者提出了anchor-free方法,設計了無需anchor的間接架構,並擁有較高的檢索速度。當前anchor-free的檢測方法存在一些問題:① 需要使用FPN網絡來學習多尺度特征,卻會對行人重識別任務引入尺寸不對齊問題;② 由於缺少ROI,anchor-free難以依據局部區域來對齊reid特征和檢測特征,因此reid特征需要在缺乏局部對齊的情況下學習;③ 行人檢索是一個多任務的框架,需要實現reid和檢測兩個任務的平衡。
為此,作者設計了Feature Aligned Person Search Network (AlignPS)。其中設計了一個anchor-free檢測模型以及一個aligned feature aggregation (AFA)模塊。具體而言:AFA利用了可變卷積(deformable convolution)和特征融合來改造FPN,解決區域、尺寸的不對齊問題。作者也優化了兩個子任務的訓練過程,讓網絡去學習更加魯邦的reid特征映射。
Feature-Aligned Person Search Networks
(1) Framework Overview:
框架在FCOS的基礎上實現,不同之處是:作者提出的框架采用“reid first”的原則,着重學習魯棒的行人特征。框架中,通過AFA模塊融合了不同尺寸的特征圖。AFA輸出的特征圖直接作為reid最終的特征映射。detection head包含了兩個分支來完成回歸和分類任務,每個分支包含了4個3x3卷積層,

(2) Aligned Feature Aggregation:
① Scale Alignment:
原版FCOS采用了不同層的特征來檢測不同尺寸的目標。然而,在reid任務中,當需要匹配不同尺寸的同一個人,reid特征可能不在同一個尺寸上提取。因此,作者只對AFA輸出的最后層上進行檢測。骨干網絡采用的ResNet50,AFA依次輸出
,其stride分別為32/16/8。
② Region Alignment:
由於anchor-free方法無法從行人檢測框中精確提取特征,作者從下面三個角度來解決這個問題:
1) 在特征融合模塊中采用3x3可變形卷積(deformable conv),讓網絡自適應地調整感受野,隱式地實現區域對齊;
2) 在特征融合模塊中使用級聯來替換求和,這樣可以更好地聚合多級特征;
3) AFA輸出的特征圖再次使用可變形卷積,進一步對齊區域。
③ Task Alignment:
作者采用了“reid first”的原則來進行訓練。原因如下:
1) 本框架繼承了現有的FCOS目標檢測的優勢,任務的重心更應該傾向reid;
2) 相比“detection first”和並行結構,“reid first”不需要額外的層來提取reid特征,因此更加高效。
(3) Triplet-Aided Online Instance Matching Loss
現有方法大部分都采用OIM損失來進行reid訓練。將所有帶標簽的行人特征作為lookup table,即
,沒有帶標簽的行人特征作為circular queue,即
。x屬於第i個ID的概率值為:

其中
為控制概率分布的超參數。OIM損失計算為:
![]()
為了提高OIM性能,作者嵌入了一種新的三元組損失,將行人中心周圍的一組特征作為正樣本,其他行人的一組特征為負樣本,計算其三元組損失:
![]()

Experiments
(1) Datasets and Settings:(表格來源)

(2) Implementation Details:
backbone:ResNet-50;
optimizer:SGD;
learning rate:0.001 (epoch 16和22時下降0.1);
epoch:24;
tricks:warmup,多尺度訓練(圖像的邊長在667~2000間隨機調整);
test image size:1500x900;
(3) 實驗結果:

其中 AlignPS+指的是在骨干網絡中嵌入了可變形卷積。
