Introduction
本文主要解決RGB-IR跨模態匹配問題。貢獻主要有三部分組成:
① 提出了 Hierarchical Cross-Modality Disentanglement(Hi-CMD)方法,該模塊的目的是排除姿態、光照這些冗余特征(ID-excluded)的影響,提取出更加有判別力的體態、衣着等信息(ID-discriminative)。
② 該方法包含了兩個核心模塊:ID-PIG 網絡和 HFL 模塊。ID-preserving Person Image Generation(ID-PIG)網絡,在保證行人ID不變的條件下,改變它的姿態、光照屬性。Hierarchical Feature learning(HFL)模塊用於確保編碼器能夠提取具有判別力的特征,對姿態、光照變化具有魯棒性。
Method
網絡的結構圖如下。
(1)ID-PIG網絡:
ID-PIG 網絡采用二階層次化。第一層次采用原型編碼器和屬性編碼器,原型編碼器對圖像中行人的體態等外貌特征進行編碼,屬性編碼器對衣服風格、姿態、光照這類可變屬性進行編碼。第二層次屬性編碼划分成三類,具體為:風格屬性編碼、光照屬性編碼、姿態屬性編碼。這三種編碼分別表示:風格屬性是對行人的衣服結構進行編碼;光照屬性編碼對應模態之間的差異,把不同RGB、IR攝像頭的視覺差異定義為光照屬性;姿態屬性對應模態內的差異,理解為同一個模態內行人的多種姿態。
最終光照、姿態屬性作為ID-excluded編碼,而風格屬性、原型編碼作為ID-discriminative編碼。
損失函數包含如下:
① 跨模態重構損失函數:保證原始圖像的體態(原型編碼)和衣服結構(風格屬性),替換模態(光照屬性)和姿態(姿態屬性),重構生成的圖像要與對應模態的樣本圖像盡可能接近。
② 同模態重構損失函數:對同模態的四個編碼,重新生成原始圖像。
③ cycle重構損失函數:兩次跨模態重構。
④ 編碼損失函數:同模態的編碼需要盡可能接近。
最終損失函數:
⑤ KL散度損失:(兩種模態各一個)為了讓ID-excluded編碼接近高斯分布。
其中,
⑥ 對抗損失:判別器G將判斷生成的圖像是real還是fake。
(2)HFL模塊:
將ID-discriminative編碼加權級聯得到判別向量,即,再傳入全連接層,得到最終的特征向量。
ReID損失函數包含交叉熵損失和三元組損失,訓練數據采用訓練得到的生成器進行數據增強,生成相同ID但不同姿態、光照屬性的行人圖片。
Experiment