同樣來自中山大學Weishi Zheng老師組的一篇unsupervised person reid,但這篇不是domain adaption,而是只有unlabeled data。
PCB等監督模型的出現表明分塊對於行人重識別的有效性。因此這篇文章利用分塊的思想解決非監督問題上。
整個模型如上圖:
- 輸入:包括原圖像和預處理圖像,預處理包括crop, scaling, rotation, brightness, contrast和saturation。其中預處理是對整張圖像做而不是圖像塊做
- 整個模型包括PatchNet和兩個loss。PatchNet包括CNN backbone和patch generation network (PGN)。backbone用作特征提取;PGN用作預測不同的分塊位置,以輸出不同的分塊。整個PatchNet在另外的label dataset上預訓練。顯然和PCB直接進行水平分塊不同,該模型是自適應分塊的。
- PGN包括一個a localization network (LN), patch sampling grids 和 sampler.具體細節參考NIP15文章Spatial transformer networks
loss部分是兩個contrast learning loss:
- 一個loss$\mathbb{L}_c^m$是instance level的softcross entropy,顯然也是借鑒了cvpr18年的Unsupervised feature learning via non-parametric instance discrimination。簡單來說就是設置feature bank,$W^m=\{w_j^m\}_{i=1}^N$,N是訓練集圖像數目,m應該是$m=1,...M$(即M個patch)。每次forward更新部分bank
每個patch分類到自己的instance那一類,有
- 另外一個類是triplet loss$\mathbb{V}$
- 正樣本對是原圖像塊和同一張圖像的預處理圖像塊
- 負樣本對的選擇:在每個mini-batch中,l2 norm和點乘的方式計算patch間的余弦相似性並排序,最相似的前$r$個認為是positive,negative中的第一個被當做hard negative