Introduction
(1)Motivation:
當前的reid存在語義不對齊的問題,如下圖:
圖(a)顯示了不同圖片的相同位置對應了行人的不同身體部位;圖(b)顯示了不同圖片呈現的部位不一樣,有些是正面有些是背面等。
(2)Contribution:
提出了一個語義對齊網絡(Semantics Aligning Network,SAN),介紹了對齊紋理生成子任務。該網絡包含一個ReID編碼器SA-Enc和一個重構對齊語義紋理的解碼器SA-Dec。
The Semantics Aligning Network(SAN)
(1)網絡框架:
網絡框架包含了兩部分,SA-Enc用於編碼行人的特征,SA-Dec用於生成語義對齊后的紋理圖片,解碼器理解為把3D的行人展開為2D圖片,該圖片包含的區域特征已經完全對齊了。SA-Enc模塊最終輸出的特征映射為,進行平均池化得到特征向量
,損失函數采用ID損失和三元組損失。SA-Dec采用非ReID的數據集進行訓練(忽略ReID的監督),損失函數應用三元組損失和重構損失。
(2)Densely Semantically Aligned Texture Image
行人紋理圖包含了一個人的3D樣貌,如下圖所示:
偽紋理圖像的生成:作者采用了去掉ReID監督的SAN網絡,即SAN-PG網絡,生成圖片對應的紋理圖像。為了訓練SAN-PG,作者基於SURREAL數據集合成了Paired-Image-Texture數據集(PIT),合成方法如下圖。通過給出紋理圖、3D人體模型、背景圖,得到行人生成圖。
(3)SAN:
① SA-Enc:采用了ResNet50的四個殘差模塊。損失函數采用了交叉熵(ID)損失和三元組損失。
② SA-Dec:損失函數采用了重構損失,最小化生成的紋理圖和真實紋理圖的距離。解碼器不僅需要生成紋理圖,還需要能夠判別行人的ID,因此衡量了解碼器每一層的每一個紋理區域的特征距離,損失函數采用的三元組損失,第 l 個模塊的損失計算如下:
其中為該特征映射的分辨率。
(4)優化:
第一步:只使用重構損失,采用PIT數據集訓練SAN-PG;
第二步:SAN采用SAN-PG的權重進行初始化,再對SAN進行訓練,同時進行ReID和對齊紋理圖的生成。
Experiment
(1)實驗設置:
數據集:CUHK03、Market1501、DukeMTMC-reID、MSMT17、Partial REID、Partial-iLIDS;
(2)方法效果圖:
(3)實驗結果: