本文提出的方法思想是利用屬性信息來挖掘各個局部特征的權重,如下圖所示。
網絡框架如下圖。框架對人體的六組屬性進行了區分:性別&年齡、頭部、上半身、下半身、鞋子、背包拎包等,具體見下表。通過Resnet提取出全局的特征,通過全連接層得到6+1個特征划分,通過RAP靜態行人屬性數據庫進行遷移學習,得到屬性的判別器。特征融合的過程中采用時間注意力,對每個幀的各個屬性計算置信值,再進行加權融合。最終的特征采用6+1個特征級聯。
其中遷移學習獲得屬性label的過程如下圖。利用Maximum Mean Discrepancy (MMD)來訓練兩個數據集之間的feature分布【傳送門】。這里的MMD損失為:
其中 k 為:
實驗結果如下: