摘要
Feature representation(特征表達) 和 metric learning (度量學習) 是 person re-Identification models 中兩個關鍵的部分。本文關注在 feture representation 並指出 hand-crafted histogram features 與CNN features 是互補的。我們提出一個特征提取網絡
Feature Fusion Net(FFN)來表達行人圖像。在FFN中,反向傳播使得CNN features 被手動特征約束。使用
color histogram features(顏色直方圖特征:RGB,HSV,YCbCr,Lab 和 YIQ)和 texture feature(紋理特征:multi-scale and multi-orientation Gabor features),這個特征更具有區分性和緊湊性。在三個數據集(VIPeR,CUHK01,PRID450s)上證明其有效性。
1.Introduction
最近五年re-id得到廣泛的研究,Person re-Identification 目的在於在不同視角的監控攝像機下匹配 people。為了解決re-Identification 問題,現有的方法探索 cross-view invariant features [9, 7, 27, 19, 14, 33, 12, 20,18]或 cross-view robust metrics [4, 5, 12, 17, 33, 23, 3, 28,34, 25] 。最近,CNN 被采用到 person re-Identification 中,使用bp進行動態調整參數。
然而,在現實的場景中的person re-Identification,一個人的外表經常在不重疊的攝像機視角會經歷大的變化,這是由於
視角、光照、雜亂的背景和閉塞引起的明顯變化。串聯手動的特征,eg: RGB,HSV顏色空間和LBP 描述子來克服在re-Identification任務中多視角外表的變化,有時這將會是更有特色的、可靠的。
為了有效結合手動特征和深度特征,我們研究 multi-colorspace hand-crafted features(ELF16) 和 CNN features 的融合和互補性,並提出FFN網絡來使用手動的特征來調整CNN 過程使得CNN features 與手動特征互補。在從FFN提取完特征,使用傳統的 metric learning 來提升性能。在三個person re-id數據集(VIPeR, CUHK01, PRID450s)上證明其有效性。在三個數據集上比最先進的方法比,顯著提高了 Rank-1 matching rate指標為(8.09%, 7.98% and 11.2%)。總之,hand-crafted features could improve the extraction process of CNN featuresin FFN, achieving a more robust image representation.
2.相關工作
Hand-crafted Features.
Color 和 texture 是圖像表示中最有用的兩個特征。eg:HSV 和 LAB 顏色直方圖用來測量圖像中顏色的信息。LBP直方圖[22] 和 Gabor filter 描述圖像的紋理特征。不同特征的結合可以產生更加有效的特征[27, 9, 7, 9, 32, 33, 20]。
針對person re-id 設計的特征顯著地提高了 the matching rate。Localdescriptors encoded by Fisher Vectors (LDFV) [19] 建立在FIsher Vector上。Color invariants (ColorInv) [14] 使用color distributions 作為唯一的線索來達到好的識別性能。Symmetry-driven accumulationof local features (SDALF) [7] 證明了segments 的對稱結構可以顯著地提高性能和一個累積特征的方法可以提供更加魯棒性來應對圖像的畸變。Local maximal occurrence features(LOMO) [18] 分析了 the horizontal occurrence of localfeatures and maximizes the occurrence to stably representre-identification images。
Deep Learning.
較少使用CNN在person re-id方面。Li et al.提出使用成對的filter的DNN(FPNN)[16],它使用patch-matching layer 和 maxout pooling layer 來處理姿態和視角的變化。他是第一個在person re-id問題上使用深度學習的work。Ahmed et al. 通過專門設計cross-input neighbourhood difference layer[1]來提升深度學習網絡。之后,在【26】中的 the deep metric learning 使用“siamese”深度神經結構和 a cosine layer來處理person images中大變化。Hu et al.提出一個 deep transfer metric learning(DTML) 【10】,它可以把跨領域的知識遷移到目標數據集中。
把 feature extraction 和 image-pair classification 結合成一個單個的CNN 網絡的方法中,最常使用的是Pairwise comparison 和 symmetry structures,它們是從傳統的metric learning[9, 7, 27, 19, 14, 33, 12, 20, 18,34, 25]. 中繼承下來的。 因為 pairwise comparison 是學習DNN的形式,需要對成對的probe image這行CNNs。對於這些工作,FFN 不需要基於成對的輸入而是直接從單個圖像中提取 deep features,所以可以與任何的卷積分類器相結合。
3.Methodology
3.1 Network Architecture
我們利用FFN(Feature Fusion Network)來學習特征。網絡結構如下:
FFN由兩部分組成。第一部分使用傳統的CNN(卷積、池化、激活函數)來處理輸入圖像;第二部分使用額外的手動特征來表示相同的圖像。這兩個子網絡最終聯系在一起來產生一個更加充分的圖像描述,所以第二個部分在學習期間調整第一部分。最終,從Fusion Layer 產生一個4096D 的特征。
3.2 CNN features
CNN 作為一個特征提取器,the body part 遭受嚴峻的位置錯位,變形和不對准。CNN中的卷積可以允許部分的位移並隨着使用更深的卷積對於視覺的改變進行緩解。多重的卷積核對行人圖像提供了不同的描述。此外,Pooling 和 LRN 層提供對應描述的非線性表示,並顯著較少了過擬合問題。這些層有助於構建一個穩定的CNN網絡並應用到新的數據集中。
3.3 Hand-crafted Features
網絡中第二部分的手動特征廣泛地應用於person re-Identification,本文使用 the Ensemble of Local Features(ELF)【9】並在【32,33】中被改進。它提取RGB,HSV 和 YCbCr histograms of 6 horizontal stripes of input image 並使用8 Garbor filters and 13 Schmid filters 來獲得相應的 texture information。
我們通過提高顏色空間和stripe division【3】 來修改 ELF 特征。輸入圖像平均分為 16 horizontal stripes 而且我們的特征由color features(RGB、HSV、LAB、XYZ、YCbCr 和 NTSC)和 texture features(Gabor、Schmid 和 LBP)組成。對於每一個通道提取一個 16D histogram 其后是L1-norm 歸一化。所有的 histograms 串聯成一個單個的向量。並定義此手動特征為 ELF16.
3.4 Proposed New Features
目的:把CNN特征和手動特征映射到一個統一的特征空間。為了使 CNN 特征與手動特征互補,提出一個特征融合的深度神經網絡。在框架中,使用反向傳播,整個CNN網絡的參數均會受到手動特征的影響。一般來說,通過融合的CNN features 應該比 單純的CNN特征和使用手動特征 更具有區分能力。
Fusion Layer and Buffer Layer(融合層 和 緩沖層)Fusion Layer 使用全連接層來自適應person re-id的問題。在ELF16 特征 和 CNN特征之后有個4096D輸出的全連接層(即Buffer Layer),它對融合起到了緩沖的作用。Buffer Layer 是必要的,因為它使得兩個有巨大不同的特征聯系起來並保證FFN的收斂(convergence)。
若Fusion Layer的輸入為
此層的輸出由此計算出來:
這里的
h(.)為激活函數。ReLU 和 dropout layers 也被采用,其中dropout ratio 為0.5。根據反向傳播算法,第
l 層的參數在新的一次迭代之后被寫為:
其中參數α,m 和 λ 遵循【2】中的設置。
現有的深度person re-id網絡采用Deviance Loss【26】或 Maximum Mean Discrepancy【1】作為loss function(損失函數)。但是本文目的在於對每張圖片有效的提取深度特征而非通過DNN執行 pairwise comparison。因此,本文使用softmax損失函數。對於一個單個的輸入向量 x 和最后一層的一個單個的輸出節點 j ,損失計算如下:
網絡的最后一層目的在於最小化交叉熵損失(cross-entropy loss):
其中,輸出節點的個數為 n varies on differenttraining sets as described in Section 4.
3.5 How do Hand-crafted Features Influence the Extraction of CNN Features?
如果網絡的參數受到ELF16特征的影響,那么網絡參數的梯度也根據ELF特征進行調整,之后使得CNN特征與其更加的互補,因為FFN的最終目標是使得在不同圖像的特征更具有差異性。
4. Settings for Feature Fusion Network
4.1. Training Dataset——Market-1501(最大的公共的person re-id數據集)
4.2. Training Strategies
使用 mini-batch stochastic gradient descent (SGD) 來快速反向傳播並平穩的收斂。mini-batch = 25.學習率=1e-5,比其他的CNN小。每20000次迭代學習率為原來的0.1。使用【11】產生的ImageNet模型進行微調。50000次迭代后收斂。
為了提高適用性,使用difficult samples 進行微調,其使用Hard negative mining策略。學習率為1e-6以及更少的迭代次數(大約10000)。最終loss為0.05以內。
5.Experiments——3個數據集(VIPeR、CUHK01 和 PRID450s)
三個數據集VIPeR [8], CUHK01 [15] and PRID450s [24]。均為兩個不重疊的攝像機視角的圖像,帶有significant misalignment, light change 和 body part distortion(失真)。
在每個實驗中,隨機選擇數據集中的一半 Identities 作為訓練集,另一半作為測試集。訓練集用來訓練映射矩陣W(以度量學習的方法)。測試集使用
來得到最終
的映射並測量輸入圖像對的距離。對於研究結果的可靠性和穩定性,每個實驗重復10次並取計算平均 Rank-i accuracy rate。Cumulative Matching Curve (CMC)(累積匹配曲線)在圖3中提供,給出了不同算法的直觀比較。
來得到最終
的映射並測量輸入圖像對的距離。對於研究結果的可靠性和穩定性,每個實驗重復10次並取計算平均 Rank-i accuracy rate。Cumulative Matching Curve (CMC)(累積匹配曲線)在圖3中提供,給出了不同算法的直觀比較。
我們在實驗中使用single-shot protocol,在測試階段,從視角2選取的一張圖像作為probe 所有視角1的圖片作為gallery。特別地對於CUHK101數據集,有兩張同一個人的圖像在一個視角中,我們隨機從每個identity中選取一張作為gallery。
Mirror Kernel Marginal Analysis (KMFA)【3】提供了用於person re-id 的一個高性能度量學習方法。該方法在Section5.3.2中采用並chi-square kernel embedded and parameters set to the optimal according to [3].
5.2 Features
比較:LDFV [19], gBiCov [20], ImageNet [13] CNN features(FC7 features), LOMO features [18], ELF16 features 和Ours,還有兩個組成特征ELF16+CNN-FC7 和 Ours+LOMO進行比較
5.3. Evaluations on Features
5.3.1 Unsupervised Method
圖3(a)-(c)顯示Ours features 與 其他的特征在L1-norm上的比較,用一個原始的非監督的觀點來評估一個算法的能力。
分析:Ours顯著比ELF16+CNN-FC7高的原因:(1)Ours不是簡單CNN特征和ELF16特征的簡單串聯。(2)Buffer Layer 和 Fusion Layer自動微調每個特征,使得混合的特征更加better。
LOMO特征不夠穩定。
5.3 Metric Learning Methods
兩個廣泛使用的度量學習方法:LFDA [23] and Mirror KMFA [3]。來學習每個probe圖像與gallery set的距離度量。
5.4 Comparison with State-of-the-Art
我們的模型基於Mirror KMFA, 串聯our new features 和 normalized LOMO features (Ours+LOMO).


5.5 Running Time
對於VIPeR數據集中單個48*128大小的圖像的平均提取特征的時間。
通過使用 Mirror Kernel Marginal Fisher Analysis(KMFA), our proposed features significantly outperform the state-of-the-art person re-identification models on these three datasets by 8.09%, 7.98%, and 11.2% (in Rank-1 accuracy rate), respectively.
