[論文筆記]2014ICPR--Deep Metric Learning for Person Re-Identification


Title: Deep Metric Learning for Person Re-Identification

Authors: Dong Yi, Zhen Lei, Shengcai Liao and Stan Z. Li

Affiliation: Center for Biometrics and Security Research & National Laboratory of Pattern Recognition Institute of Automation, Chinese Academy of Sciences (CASIA)

ICPR14 Invited Paper


 Contribution

  1. 行人重識別深度學習開山之作之一(同時期還有一篇),將siamese網絡結構用於行人重識別問題上
  2. 對siamese網絡結構中兩個子網絡的參數是否共享作了探討,認為共享適用於更general的情況,而不共享更specific
  3. 進行了cross database的實驗,更符合實際應用

摘要

  各種手工設計的特征和度量學習方法在人的再識別領域占主導地位。與這些方法相比,本文提出了一種更通用的直接從圖像像素學習相似性度量的方法。該方法采用”siamese”深度神經網絡,可以在統一的框架內共同學習顏色特征、紋理特征和度量。該網絡具有兩個子網絡的對稱結構,子網絡由一個余弦層連接。每個子網包括兩個卷積層和一個全連接層。為了處理人的形象的巨大變化,采用二項式偏差法對相似性與標簽之間的成本進行了評估,證明了二項式偏差法對離群值具有很強的魯棒性。通過對VIPeR的實驗,證明了該方法的優越性,並通過跨數據庫的實驗,證明了該方法的良好推廣性。


1. Introduction

第一段:定義了行人重識別是判斷兩張人的圖像是否屬於同一主體。思考:每次輸入兩張圖像限制了這個問題,很多時候是需要比對query和多張圖像的相似性,每次都是兩兩比較顯然在時間和資源上都存在極大地浪費。

第二段:行人重識別的挑戰包括:行人圖像的低質量和高差異;行人圖像分辨率低(大約是48*128);光照條件不穩定;攝像頭的方向和行人姿勢不定,導致大的類內變化和類間的不確定。

第三四段:圖像上行人的表達方式是關鍵,有很多其他領域的特征被借鑒過來(HSV histogram,Gabor, HOG, etc)。基於這些特征分為直接匹配或者是判別學習(主要,such as KISSME [1], RDC [2])。一般步驟分為特征提取和度量學習(metric learning)。特征一半來自顏色和紋理。這篇文章提出“Deep Metric Learning”的思想,把顏色特征、紋理特征和度量結合在一個框架內。

第五段:DML(Deep Metric Learning)借鑒了判斷簽名的siamese模型。對於兩張人的圖像x和y,用該網絡來判斷二者的相似性 。不同於原始的siamese模型,DML的兩個子網絡不共享權重和偏置,作者認為這樣每個子網絡有各自的view,更適合行人重識別問題。最后是余弦層計算相似性,,B1和B2分別表示兩個子網絡。B1和B2共享參數則更加的generic(不考慮view)。

第六段:作者認為DML的優勢有三:①直接從圖像學習相似性,不需要手工設計特征;②多通道的濾波器可以同時捕捉顏色和紋理信息,不需要像傳統方法一樣再進行特征融合;③兩個子網絡可以共享/不共享參數。

第七段:作者在VIPeR數據集上測試;泛化能力則是用cross-database的方法,在CUHK Campus數據集上訓練,VIPeR上測試。


2. RELATED WORK

三個方面介紹:

  • feature representation
  • metric learning for person re-identification
  • siamese convolutional neural network.

3. DEEP METRIC LEARNING

  為什么用深度學習:作者認為兩張行人圖像的相似性受分辨率、光照和姿態聯合影響,所以理想的度量可能是高度非線性的。因此深度學習是理想的學習方法。

A. Architecture

第一段解釋為什么選用siamese網絡結構,是因為深度學習傳統的“樣本à標簽”方法在行人重識別問題中不再適用,因為在該問題中訓練集和測試集的主體不一樣(identity不是同一批)。

第二段:網絡流程圖如圖一。每兩張行人圖像划分成有重疊的三個子塊,然后兩張的上中下子塊各自對應組成圖像對輸入到3個siamese convolutional neural network (SCNN)中。每個SCNN輸出±1的標簽表示該圖像對是否來自同一個主體(即同一個行人)。由於許多應用需要根據探針圖像(probe image)對圖像庫圖像進行相似性排序,所以該文輸出相似性分數similarity score作為替代。SCNN網絡結構如圖二,包含兩個CNN,這兩個CNN由一個余弦層(cosine layer)連接起來。兩張圖像的相似性計算公式為

其中B1和B2分別表示兩個CNN。

第三段指出在本文中,siamese網絡模型中的兩個CNN的參數可共享(稱之為“General” SCNN模式)也可以不共享(稱之為“View Specific” SCNN模式)。作者指出共享參數更適合與一般性的重識別問題,如cross database的識別。

B. Convolutional Neural Network

  CNN的結構如圖三,每個CNN包含2個全連接層和2個max pooling層,以及一個FC層。卷積層和池化層的通道數分別是32, 32, 48, 48。輸出是500維。每個池化層包含一個歸一化層(cross channel normalization unit)。卷積前填充0使得輸出大小一致。卷及尺寸分別是7X7和5X5。每層后使用ReLU激活。

C. Cost Function and Learning

對於損失函數的設計,作者候選了三種函數,平方差、指數和Binomial deviance (二項式偏差?)

 

從圖四的曲線來看,Binomial deviance在相似性不正確時cost最大,所以作者選取了它。

最終損失函數為

分別求偏導以用於BP算法

作者用mini batch SGD訓練,每個batch大小為126(64個正樣本對和64個負樣本對)。由於負樣本對更多,作者采用隨機選取的方式。訓練大概300epochs收斂。


4. EXPERIMENTS

數據集的選擇:作者選取VIPeR,因為其評價體系最清晰(the evaluation protocol of VIPeR is the clearest one)。

A. Single Database Person Re-Identification

  訓練和測試數據都是VIPeR。該數據集包含632個主體,每個主體有2張圖像(分別來自camera A和camera B)。作者隨機將其分成含316個主體的訓練集和含316個主體的測試集,並重復11次。其中第一次的隨機划分數據集(Dev split)用來選取參數,后面10次(Test splits)用來會把匯報結果。

  作者通過Dev split實驗選取了兩個參數:

  • 一個是epochs=300
  • 另一個是圖像對不屬於同一個identity時ground truth(l)的值c=-2。原因是由於產生的負樣本遠多於正樣本,可能造成負樣本對的欠擬合,所以用不對稱的懲罰來限制。

三個網絡(比較上中下或者頭、軀干、腿)通過累加相似性來融合。

實驗結果

B. Cross Database Person Re-Identification

訓練數據集:CUHK Campus database (1816 (subjects) X 4 (images from 2 camera views/subject) = 7264 (images))。

測試數據集:同上VIPeR,對半分,重復10次

對比方法(transfer Rank SVM, DTRSVM):adapt a model trained on the source domain (i-LIDS or PRID [25]) to target domain (VIPeR). source domain的所有樣本和target domain的負樣本對被用來訓練。該文方法是source domain訓練,target domain測試。

與single database相比,cross data base模式下身體不同部分對結果影響不一樣(body>head>leg),作者認為是因為軀干最穩定而腿的結構變化最大。思考:是否考慮加權?融合確實有效,如果不切分呢?

實驗結果

感覺對比不嚴謹


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM