Introduction
本文有如下3個貢獻:
① 提出了一個自下而上(bottom-up)的聚類框架(BUC)來解決無監督的ReID問題;
② 采用repelled損失來優化模型,repelled損失直接優化了樣本、聚類之間的余弦距離,可以挖掘聚類之間的相似性以及最大化不同身份之間的差異性;
③ 提出了一個多樣性正則化項來保證每個聚類內部圖像數量的平衡性,使得聚類結果更符合真實環境下的分布規律。
開源【https://github.com/L1aoXingyu/Bottom-up-Clustering-Person-Re-identification】
Approach
(1)背景介紹:
假設訓練集包含 N 張圖片,目標是不帶任何標記從 X 中學習一個特征映射函數
。特征映射的測試集合(也就是gallery集合)為
,query集合為
。在評估過程中,使用query集合中的圖片通過特征映射函數來搜尋test集合中的相似的圖片特征,並用歐氏距離進行rank排序,即
傳統的方法是采用手動標注的方法來學習參數,即每個 x 都對應一個標簽 y,采用以下目標函數進行優化:
其中 l 為softmax交叉熵損失,f 為分類器。
但是在無監督學習中,y 並不能獲得,因此需要重新構造損失函數。
(2)BUC框架:
① 總體框架:
② Repelled Loss:
初始化每張圖片的標簽:,定義圖片 x 屬於第 c 個聚類的概率值為:
其中 ,理解為這張圖片的特征進行正規操作;
是一個查找表(lookup table),存儲各個聚類的特征,這里可以作為每個聚類的質心;C 為聚類的數量,在初始階段
,
是控制分布的參數,這里設置為 0.1。
在前向傳播過程中,計算余弦相似度;在反向傳播中,更新第
列的 V 為
,可以理解為將分配到該聚類的特征和質心融合,獲得新的質心。得到損失函數為:
③ 聚類合並:
最小距離標准(minimum distance criterion)把兩個不同聚類中圖片的最短距離作為兩者的差異度,這種方式只考慮最近的兩者,並不考慮除了最近圖片外的其它圖片。優點是:相同行人的圖片在同一個攝像頭下通常是相近的,容易划分到同一個聚類中。計算如下:
其中
最大距離標准(maximum distance criterion)把兩個不同聚類中圖片的最大距離作為兩者的差異度,存在缺點:同一個行人在不同攝像頭下可能存在較大的差異,用最大距離標准難以划分到相同聚類中。
平均距離標准(centroid distance criterion)對每個聚類中的圖片特征求均值,存在缺點:損失了聚類一些的特征信息。
在每次聚類合並過程中,限制單次迭代下降的聚類數為 m,定義,mp為聚類合並系數,在 t 次迭代后,聚類的數量為
。
④ 動態網絡更新:
(3)多樣性正則化:
現實場景中,聚類之間的元素數量差異不會太大,為了避免出現聚類元素過多的情況,設置了多樣性正則化項,即:
最終兩個聚類之間的距離計算為:
Experiment
(1)實驗設置:
① 數據集設置:Market1501、DukeMTMC-reID、MARS、DukeMTMC-VideoReID;
② 實驗細節:采用ResNet-50來作為CNN的主干網絡;
③ 參數設置:訓練epoch數量 = 20,batch size = 16,dropout rate = 0.5,mp = 0.05,λ = 0.005,momentum = 0.9,learning rate = 0.1,並在15次迭代后降為0.01.
(2)實驗結果: