Person Re-identification with Deep Similarity-Guided Graph Neural Network
2018-07-27 17:41:45
Paper: https://128.84.21.199/pdf/1807.09975.pdf
本文將 Graph Neural Network (GNN) 應用到 person re-ID 的任務中,用於 model 不同 prob-gallery 之間的關系,將該信息也用於 feature learning,進一步提升了最終的效果。如下圖所示:
Abstract:
行人再識別的任務需要魯棒的預測行人圖片之間的視覺相似度。然而,現有的 re-ID 模型大部分都是獨立的進行 different image pairs of prob and gallery images 相似度的學習,但是缺忽略了不同的 prob-gallery pairs 之間的關系信息(the relationships information between different prob-gallery pairs)。這就導致了一些 hard samples 的相似性預測不是很准確。本文,我們提出一種新的 deep learning framework,稱為:Similarity-Guided Graph Neural Network(SGGNN)來克服上述缺陷。給定 a prob image and several gallery images, SGGNN 構建一個 graph 來表示不同 gallery pairs 之間的 pairwise relationships,並且利用上述信息來進行end to end 的更新 probe-gallery relation features。通過這種關系特征可以進行更加准確的相似性預測。Graph 上 nodes 的輸入feature 是:the relation features of different prob-gallery image pairs. 這種關系 feature 的更新可以通過 SGGNN 上信息的傳遞來完成,這樣就可以考慮到其他 nodes 的信息來進行相似度的學習。跟傳統的 GNN 的方法不同,SGGNN 直接利用 rich labels 來學習 edge weights,可以提供更加准確的信息來進行 relation fusion。本文在三個 person re-ID 的數據集上進行了實驗,證明了本文方法的有效性。
Methods:
一般 re-ID 模型的評測是:將 test data 分為兩個部分:a prob set and a gallery set.
給定 prob 和 gallery 圖像對,re-ID 模型的目標是:robustly determining visua similarities between prob-gallery image pairs.
在前人的工作中,在一個 minibatch 中,這些 prob-gallery 圖像對的評測是獨立進行的。但是,不同 gallery images 的相似度卻對 prob-gallery 相似度的優化非常有價值(the similarities between different gallery images are valuable for refining simialrity estimation between the prob and gallery)。
本文充分利用這種信息來改善 feature learning,如圖1 所示。
該方法將同時輸入一個 prob 和 多個 gallery image,來構建一個 graph,每一個 node 建模了一個 prob-gallery image pairs,輸出的是:每一個圖像對的相似度。這樣就可以將學習到的信息通過網絡進行傳遞,即:Deeply learned messages will be propagated among nodes to update the relation features associated with each node for more accurate similarity score estimation in the end-to-end training process.
1. Graph Formulation and Node Features:
在我們的框架中,我們首先將 person re-ID 看做是 node-focused graph application。給定 prob 和 N 個 gallery image,我們構建一個無向完全圖 G(V, E),其中 V = {v1, v2, ... , vn} 代表 nodes 的集合。每一個 node 代表了 prob-gallery images 的圖像對。我們的目標是:預測每一個圖像對的相似度,所以,把 re-ID 的問題當做是 node classification 的問題。
在本文當中,我們采用一種簡單的方法來獲得:input relation features,如圖 2(a)所示。我們將給定的 prob-gallery pairs 輸入到一個 Siamese Network 當中,以得到 pairwise relation feature encoding。該 Siamese Network 的設計主要是基於 ResNet-50,后面接進行兩個輸入圖像所提 feature 的相減,然后進行 element-wise square operation,輸入到 Batch Normalization layer。該差值衡量了兩個輸入圖像之間的差異性,我們將這個 feature 作為 nodes 的輸入特征。由於我們的任務是 node-wise classification,即:預測每一個 pair 之間相似度,一個比較 naive 的方法就是:直接將該 feature 輸入到線性分類器當中,直接輸出相似度得分,而不考慮不同 nodes 之間的相似度。對於每一個 prob-gallery image pair,可以用二元交叉熵損失函數來完成這個目標:
2. Similarity-Guided Graph Neural Network:
明顯,簡單的分類方法忽略了不同 prob-gallery pair 之間的重要信息。為了探索這些信息,我們需要在 nodes 上進行 edge 的構建。在我們的工作中,G 是全連接的,E 代表了不同節點關系的集合,其中 $W_{ij}$ 是 scalar edge weight。它代表了不同節點之間關系的重要性,可以通過如下的公式進行計算:
其中,gi and gj 代表了 第 i 個 和 第 j 個 gallery image。我們通過傳遞不同連接節點之間的 deep learned messages,來增強 nodes 的 feature。
這個 node features 然后也被更新,作為:a weighted addition fusion of all input messages and the node's original features.
在進行信息傳遞之前,每一個節點首先編碼了 a deep message,以用於傳遞給與它相連接的 nodes。這個節點的 input relation features $d_i$ 然后被輸入到一個 message network,該網絡是由 2 fc layers 和 BN 以及 ReLU layers 構成的,以得到 deep message $t_i$,如圖2(b)所示。這個過程學習到了更加合適的 messages 用於節點關系特征的更新:
在得到 edge weights $W_{ij}$ 以及 deep message $t_i$ 以后,然后 node relation feature $d_i$ 的更新機制可以表達為:
其中,上式的輸出代表了第 i 個節點的優化后的關系特征,d0 代表了第 i 個輸入關系特征,tj 代表了 deep message from node j。
注意到這種更新機制可以是以一種迭代的方式進行的,即:
但是,作者發現這種迭代的方式進行的提升,效果有限。在進行特征更新之后,我們將該 feature 輸入到線性分類器當中,以得到相似性得分,然后照樣利用 Binary cross-entropy loss 進行訓練。
== Done !!!