(2021TPAMI深度學習行人重識別綜述與展望)Deep Learning for Person Re-identification: A Survey and Outlook



Deep learning-based person re-identification methods A survey and outlook of recent works

深度學習行人重識別綜述與展望

論文地址:https://arxiv.org/abs/2001.04193
代碼:https://github.com/mangye16/ReID-Survey
作者知乎講解:https://zhuanlan.zhihu.com/p/342249413

摘要:行人重識別(Re-ID)旨在通過多個不重疊的攝像頭檢索感興趣的行人。隨着深度神經網絡的進步和智能視頻監控需求的增加,它在計算機視覺社區中獲得了顯着增加的興趣。通過剖析開發行人Re-ID系統所涉及的組件,我們將其分為封閉世界和開放世界設置。廣泛研究的封閉世界環境通常應用於各種以研究為導向的假設,並在許多數據集上使用深度學習技術取得了令人鼓舞的成功。我們首先從深度特征表示學習、深度度量學習和ranking優化三個不同的角度對封閉世界的行人Re-ID進行了全面的概述和深入分析。隨着封閉世界設置下的性能飽和,Person Re-ID的研究重點最近轉移到了開放世界設置,面臨着更具挑戰性的問題。該設置更接近特定場景下的實際應用。我們從五個不同方面總結了開放世界的Re-ID。通過分析現有方法的優勢,我們設計了一個強大的AGW基線,在四個不同的Re-ID任務的十二個數據集上實現了最先進或至少可比的性能。同時,我們為行人重識別引入了一個新的評估指標(mINP),表示找到所有正確匹配的成本,這為評估重識別系統的實際應用提供了額外的標准。最后,討論了一些重要但未被充分調查的開放性問題。
關鍵詞:行人重識別、行人檢索、文獻調查、評估指標、深度學習

1、引言

  行人重新識別(Re-ID)已被廣泛研究為跨非重疊攝像機[1]、[2]的特定行人檢索問題。給定一個查詢感興趣的人,Re-ID的目標是確定此人是否在不同的相機拍攝的不同時間出現在另一個地方,或者甚至是同一相機在不同的瞬間[3]。查詢人可以用圖像[4]、[5]、[6]、視頻序列[7]、[8],甚至是文本描述[9]、[10]來表示。由於公共安全的迫切需求和越來越多的監控攝像頭,Person Re-ID在智能監控系統中勢在必行,具有重大的研究影響和現實意義。

  由於存在不同的視點[11]、[12]、不同的低圖像分辨率[13]、[14]、光照變化[15]、不受約束的姿勢[16]、[17]、[18],遮擋[19],[20],異構模式[10],[21],復雜的相機環境,背景雜波[22],不可靠的邊界框生成等,Re-ID是一項具有挑戰性的任務,。這些導致不同的變化和不確定性。此外,對於實際模型部署,動態更新的相機網絡[23]、[24]、具有高效檢索的大規模圖庫[25]、組不確定性[26]、顯着的領域轉移[27]、看不見的測試場景[28]、增量模型更新[29]和換衣服[30]也大大增加了難度。這些挑戰導致Re-ID仍然是未解決的問題。早期的研究工作主要集中在具有身體結構的手工特征構建[31]、[32]、[33]、[34]、[35]或距離度量學習[36]、[37]、[38]、[39]、[40]、[41]。隨着深度學習的進步,Person Re-ID在廣泛使用的基准測試[5]、[42]、[43]、[44]上取得了令人鼓舞的表現。然而,以研究為導向的場景與實際應用之間仍有很大差距[45]。這促使我們進行全面調查,為不同的Re-ID任務開發強大的基線,並討論幾個未來的方向。

  盡管一些調查也總結了深度學習技術[2]、[46]、[47],但我們的調查有三個主要區別:1)我們通過討論現有深度學習方法的優勢和限制,分析最先進的技術。這為未來的算法設計和新主題探索提供了見解。2)我們為未來的發展設計了一個新的強大基線(AGW:Attention Generalized mean pooling with Weighted triplet loss)和一個新的評估指標(mINP:mean Inverse Negative Penalty)。AGW在12個數據集上針對四種不同的Re-ID任務實現了最先進的性能。mINP為現有CMC/mAP提供了一個補充指標,表明找到所有正確匹配的成本。3)我們嘗試討論幾個重要的研究方向和未充分研究的開放問題,以縮小封閉世界和開放世界應用之間的差距,向現實世界的Re-ID系統設計邁出一步。

  除非另有說明,本次調查中的Person Re-ID是指從計算機視覺角度跨多個監控攝像頭的行人檢索問題。

  一般來說,針對特定場景構建person Re-ID系統需要五個主要步驟(如圖1所示):

1)步驟1:原始數據收集:從監控攝像頭獲取原始視頻數據是實際視頻調查的首要要求。這些攝像機通常位於不同環境下的不同地方[48]。最有可能的是,這些原始數據包含大量復雜且嘈雜的背景雜波。

2)第2步:邊界框生成:從原始視頻數據中提取包含人物圖像的邊界框。通常,在大規模應用中手動裁剪所有人物圖像是不可能的。邊界框通常通過行人檢測[49]、[50]或跟蹤算法[51]、[52]獲得。

3)第3步:訓練數據注釋:注釋跨相機標簽。由於較大的跨相機變化,訓練數據注釋通常對於判別性Re-ID模型學習是必不可少的。在存在大域轉移[53]的情況下,我們經常需要在每個新場景中對訓練數據進行注釋。

4)第4步:模型訓練:用之前帶注釋的人物圖像/視頻訓練一個有判別力和魯棒性的Re-ID模型。這一步是開發Re-ID系統的核心,也是文獻中研究最廣泛的范例。已經開發了廣泛的模型來處理各種挑戰,主要集中在特征表示學習[54]、[55]、距離度量學習[56]、[57]或它們的組合上。

5)第5步:行人檢索:測試階段進行行人檢索。給定一個感興趣的人(查詢)和一個畫廊集,我們使用在前一階段學習的Re-ID模型提取特征表示。通過對計算的查詢到圖庫的相似度進行排序,獲得檢索到的排名列表。一些方法還研究了排名優化以提高檢索性能[58]、[59]。

  根據上述五個步驟,我們將現有的Re-ID方法分為兩大趨勢:封閉世界和開放世界設置,如表1所示。逐步比較以下五個方面:

1)單-模態與異構數據:對於步驟1中的原始數據收集,所有人都由封閉世界設置中的單模態可見相機捕獲的圖像/視頻表示[5]、[8]、[31],[42]、[43]、[44]。然而,在實際的開放世界應用中,我們可能還需要處理異構數據,例如紅外圖像[21]、[60]、草圖[61]、深度圖像[62],甚至是文本描述[63]。這激發了第3.1節中的異構Re-ID。

2)Bounding Box Generation vs. Raw Images/Videos:對於Step 2中的bounding box生成,封閉世界person Re-ID通常基於生成的bounding box進行訓練和測試,其中bounding box主要包含person外觀信息。相比之下,一些實際的開放世界應用程序需要從原始圖像或視頻中進行端到端的行人搜索[55]、[64]。這導致了另一個開放世界主題,即第3.2節中的端到端行人搜索。

3)足夠的帶注釋的數據與不可用/有限的標簽:對於步驟3中的訓練數據注釋,封閉世界的行人Re-ID通常假設我們有足夠的帶注釋的訓練數據來進行有監督的Re-ID模型訓練。然而,在每個新環境中為每個相機進行標簽標注既費時又費力,成本也很高。在開放世界場景中,我們可能沒有足夠的注釋數據(即有限的標簽)[65],甚至沒有任何標簽信息[66]。這激發了第3.3節中對無監督和半監督Re-ID的討論。

4)正確注釋與嘈雜注釋:對於第4步,現有的封閉世界行人Re-ID系統通常假設所有注釋都是正確的,並帶有干凈的標簽。然而,由於注釋錯誤(即標簽噪聲)或不完美的檢測/跟蹤結果(即樣本噪聲、Partial Re-ID[67]),注釋噪聲通常是不可避免的。這導致了第3.4節中在不同噪聲類型下對噪聲魯棒性行人Re-ID的分析。

5)Query Exists in Gallery vs. Open-set:在行人檢索階段(第5步),大多數現有的封閉世界人物識別工作都假設查詢必須在通過計算CMC[68]和mAP [5]設置的畫廊中進行。然而,在許多情況下,查詢人可能不會出現在圖庫集[69]、[70]中,或者我們需要執行驗證而不是檢索[26]。這將我們帶到了第3.5節中的開放集行人Re-ID。

  該調查首先在第 2 節中介紹了在封閉世界設置下廣泛研究的行人Re-ID。在第2.4節中對數據集和最新技術進行了詳細審查。然后我們在第3節中介紹了開放世界的行人再識別。第4節介紹了對未來Re-ID的展望,包括一個新的評估指標(第4.1節)、一個新的強大的AGW基線(第4.2節)。我們討論了幾個未充分調查的未解決問題以供未來研究(第4.3節)。結論將在第5節中得出。結構概述見補充。

2、封閉世界的行人重識別

  本節概述了封閉世界的行人Re-ID。如第1節所述,此設置通常具有以下假設:1)人的外表由單模態可見相機捕獲,通過圖像或視頻;2)人由bounding box表示,其中大部分bounding box區域屬於同一個身份;3)訓練有足夠的帶注釋的訓練數據用於有監督的判別式Re-ID模型學習;4)注釋一般是正確的;5)查詢人必須出現在圖庫集中。通常,標准的封閉世界Re-ID系統包含三個主要組件:特征表示學習(第2.1節),專注於開發特征構建策略;深度度量學習(§2.2),旨在設計具有不同損失函數或采樣策略的訓練目標;Ranking優化(第2.3節),專注於優化檢索到的排名列表。第2.4.2節提供了數據集和SOTA的概述以及深入分析。

2.1 特征表示學習

  我們首先討論了封閉世界行人Re-ID中的特征學習策略。有四個主要類別(如圖2所示):a)全局特征(第2.1.1節),它為每個人的圖像提取全局特征表示向量,而無需額外的注釋線索[55];b)局部特征(第2.1.2節),它聚合部件級局部特征以制定每個人圖像的組合表示[75]、[76]、[77];c)輔助特征(第2.1.3節),它使用輔助信息改進了特征表示學習,例如屬性[71]、[72]、[78]、GAN生成的圖像[42]等。d)視頻特征(第2.1.4節),它使用多個圖像幀和時間信息[73]、[74]學習基於視頻的Re-ID[7]的視頻表示。我們還回顧了第2.1.5節中行人重識別的幾個特定架構設計。

2.1.1 全局特征表示學習

  全局特征表示學習為每個人的圖像提取一個全局特征向量,如圖2(a)所示。由於深度神經網絡最初應用於圖像分類[79]、[80],因此早期將先進的深度學習技術集成到Person Re-ID領域時,全局特征學習是首選。

  為了捕捉全局特征學習中的細粒度線索,在[81]中開發了一個由單圖像表示(SIR)和跨圖像表示(CIR)組成的聯合學習框架,使用特定的子網絡進行triplet loss訓練。廣泛使用的ID判別嵌入(IDE)模型[55]通過將每個身份視為不同的類,將訓練過程構建為多類分類問題。它現在廣泛用於Re-ID社區[42]、[58]、[77]、[82]、[83]。錢等人[84]開發了一種多尺度深度表示學習模型來捕捉不同尺度的判別線索。

注意力信息。注意力方案已在文獻中得到廣泛研究,以增強表示學習[85]。1)第一組:行人圖像內的注意力。典型的策略包括像素級注意[86]和通道特征響應重新加權[86]、[87]、[88]、[89]或背景抑制[22]。空間信息集成在[90]中。2)第2組:關注多個人物圖像的注意力。[91]中提出了一種上下文感知的注意力特征學習方法,它結合了序列內和序列間的注意力,用於成對的特征對齊和細化。在[92]、[93]中添加了注意力一致性屬性。組相似性[94]、[95]是另一種利用跨圖像注意力的流行方法,它涉及用於局部和全局相似性建模的多個圖像。第一組主要增強對錯位/不完美檢測的魯棒性,第二組通過挖掘多個圖像之間的關系來改進特征學習。

2.1.2 局部特征表示學習

  它學習部分/區域聚合特征,使其能夠抵抗錯位[77],[96]。身體部位要么通過人體解析/姿勢估計自動生成(第1組),要么通過大致水平划分(第2組)自動生成。

  通過自動身體部位檢測,流行的解決方案是結合全身表示和局部特征[97]、[98]。具體來說,多通道聚合[99]、多尺度上下文感知卷積[100]、多級特征分解[17]和雙線性池化[97]旨在改善局部特征學習。在[98]中還研究了部件級相似性組合,而不是特征級融合。另一種流行的解決方案是增強對背景雜波的魯棒性,使用姿勢驅動匹配[101]、姿勢引導部件注意模塊[102]、語義部件對齊[103]、[104]。

  對於水平划分的區域特征,在基於部件的卷積基線(PCB)[77]中學習了多個部分級分類器,它現在作為當前最先進的[28],[105],[106]中強大的部件特征學習基線。為了捕捉多個身體部位之間的關系,Siamese Long Short-Term Memory (LSTM)架構[96]、二階非局部注意力[107]、交互和聚合(IA)[108]旨在加強特征學習。

  第一組使用人類解析技術來獲得語義上有意義的身體部位,這提供了很好的部件特征。然而,它們需要一個額外的姿態檢測器,並且容易出現噪聲姿態檢測[77]。

  第二組采用均勻划分得到橫條紋部分,比較靈活,但對重度遮擋和大背景雜波比較敏感。

2.1.3 輔助特征表示學習

  輔助特征表示學習通常需要額外的注釋信息(例如語義屬性[71])或生成/增強的訓練樣本來加強特征表示[19]、[42]。

語義屬性。[72]中引入了聯合身份和屬性學習基線。蘇等人[71]通過結合預測的語義屬性信息,提出了一個深度屬性學習框架,增強了半監督學習方式中特征表示的泛化性和魯棒性。語義屬性和注意方案都被結合起來以改進部件特征學習[109]。[110]中還采用語義屬性進行視頻Re-ID特征表示學習。它們還被用作無監督學習中的輔助監督信息[111]。

視點信息。視點信息也被用來增強特征表示學習[112],[113]。多級分解網絡(MLFN)[112]還嘗試在多個語義級別上學習身份判別和視圖不變的特征表示。劉等人[113]提取視圖通用和視圖特定學習的組合。在視點感知特征學習中,[114]中結合了角度正則化。

域信息。域引導丟棄(DGD)算法[54]旨在自適應地挖掘域可共享和域特定的神經元,用於多域深度特征表示學習。Lin等人[115]將每個相機視為一個不同的域,提出了一種多相機一致匹配約束,以在深度學習框架中獲得全局最優表示。類似地,相機視圖信息或檢測到的相機位置也被應用在[18]中,以通過相機特定的信息建模來改進特征表示。

GAN生成。本節討論使用GAN生成的圖像作為輔助信息。鄭等人[42]開始首次嘗試將GAN技術應用於Person Re-ID。它使用生成的人物圖像改進了有監督的特征表示學習。姿勢約束被納入[116]以提高生成的人物圖像的質量,生成具有新姿勢變體的人物圖像。在[117]中設計了一種姿勢歸一化圖像生成方法,它增強了對姿勢變化的魯棒性。相機樣式信息[118]也集成在圖像生成過程中,以解決跨相機的變化。一個聯合判別和生成學習模型[119]分別學習外觀和結構代碼以提高圖像生成質量。使用GAN生成的圖像也是無監督域自適應Re-ID[120]、[121]中廣泛使用的方法,近似於目標分布。

數據增強。對於Re-ID,自定義操作是隨機調整大小、裁剪和水平翻轉[122]。此外,生成對抗性遮擋樣本[19]以增加訓練數據的變化。[123]中提出了一種類似的隨機擦除策略,向輸入圖像添加隨機噪聲。一批DropBlock[124]隨機地在特征圖中刪除一個區域塊以加強注意力集中的特征學習。巴克等人[125]生成在不同光照條件下渲染的虛擬人。這些方法通過增強樣本豐富了監督,提高了測試集的泛化性。

2.1.4 視頻特征表示學習

  基於視頻的Re-ID是另一個熱門話題[126],其中每個人都由具有多個幀的視頻序列表示。由於豐富的外觀和時間信息,它在ReID社區中引起了越來越多的興趣。這也給使用多張圖像的視頻特征表示學習帶來了額外的挑戰。

  主要挑戰是准確捕獲時間信息。[127]為基於視頻的行人Re-ID設計了一種循環神經網絡架構,它聯合優化了時間信息傳播的最終循環層和時間池化層。在[128]中開發了一種用於空間和時間流的加權方案。嚴等人[129]提出了一種漸進/順序融合框架來聚合幀級人體區域表示。在[110]中,語義屬性也被用於具有特征分離和幀重新加權的視頻Re-ID。聯合聚合幀級特征和時空外觀信息對於視頻表示學習[130]、[131]、[132]至關重要。

  另一個主要挑戰是視頻中不可避免的異常跟蹤幀。在聯合空間和時間注意力池化網絡(ASTPN)[131]中選擇信息幀,並將上下文信息集成在[130]中。受共同分割啟發的注意力模型[132]通過相互一致的估計來檢測多個視頻幀中的顯着特征。采用多樣性正則化[133]來挖掘每個視頻序列中的多個有區別的身體部位。采用仿射殼來處理視頻序列中的異常幀[83]。一項有趣的工作[20]利用多個視頻幀來自動完成遮擋區域。這些工作表明,處理噪聲幀可以極大地改善視頻表示學習。

  處理不同長度的視頻序列也具有挑戰性。Chen等人[134]將長視頻序列分成多個短片段,聚合排名靠前的片段以學習緊湊的嵌入。剪輯級學習策略[135]利用空間和時間維度的注意線索來產生強大的剪輯級表示。短期和長期關系[136]都集成在一個自注意力方案中。

2.1.5 架構設計

  將Person Re-ID 作為一個特定的行人檢索問題,現有的大多數工作都采用為圖像分類而設計的網絡架構[79]、[80]作為主干。一些工作試圖修改主干架構以實現更好的Re-ID功能。對於廣泛使用的ResNet50主干[80],重要的修改包括將最后一個卷積stripe/大小更改為1[77],在最后一個池化層[77]中采用自適應平均池化,以及在池化后添加具有批量歸一化的瓶頸層[82]。

  准確性是特定Re-ID網絡架構設計以提高准確性的主要關注點,Li等人[43]通過設計一個濾波器配對神經網絡(FPNN)開始了第一次嘗試,該網絡與部分判別信息挖掘共同處理錯位和遮擋。王等人[89]提出了一個帶有專門設計的WConv層和Channel Scaling層的BraidNet。WConv層提取兩個圖像的差異信息以增強對未對齊的魯棒性,通道縮放層優化每個輸入通道的縮放因子。多級因子分解網絡(MLFN)[112]包含多個堆疊塊以在特定級別對各種潛在因子進行建模,並且動態選擇因子以制定最終表示。開發了一種具有卷積相似度模塊的高效全卷積連體網絡[137],以優化多級相似度測量。通過使用深度卷積可以有效地捕獲和優化相似度。

  效率是Re-ID架構設計的另一個重要因素。一個高效的小規模網絡,即OmniScale網絡(OSNet)[138],是通過結合逐點卷積和深度卷積來設計的。為了實現多尺度特征學習,引入了由多個卷積流組成的殘差塊。

  隨着對自動機器學習的興趣日益增加,提出了Auto-ReID[139]模型。Auto-Reid基於一組基本架構組件提供高效且有效的自動化神經架構設計,使用部分感知模塊來捕獲具有判別性的局部ReID特征。這為探索強大的特定領域架構提供了潛在的研究方向。

2.2 深度度量學習

  在深度學習時代之前,度量學習已經通過學習馬氏距離函數[36]、[37]或投影矩陣[40]得到了廣泛的研究。度量學習的作用已被損失函數設計所取代,以指導特征表示學習。我們將首先回顧第
2.2.1節中廣泛使用的損失函數,然后在第2.2.2節總結具有特定抽樣設計的訓練策略。

2.2.1 Loss函數設計

  本次調查僅關注為深度學習設計的損失函數[56]。為手工系統設計的距離度量學習的概述可以在[2]、[143]中找到。在行人Re-ID的文獻中,有三種廣泛研究的損失函數及其變體,包括身份損失、驗證損失和三元組損失。圖3顯示了三個損失函數的圖示。

身份Loss。它將person Re-ID的訓練過程視為圖像分類問題[55],即每個身份都是一個不同的類。在測試階段,采用池化層或嵌入層的輸出作為特征提取器。給定帶有標簽yi的輸入圖像xi,xi被識別為類別yi的預測概率用softmax函數編碼,由p(yi|xi)表示。
然后通過交叉熵計算身份損失

  其中n表示每批中的訓練樣本數。身份損失已廣泛用於現有方法[19]、[42]、[82]、[92]、[95]、[106]、[118]、[120]、[140]、[144]。一般來說,在訓練過程中很容易訓練和自動挖掘困難樣本,如[145]所示。一些工作還研究了softmax變體[146],例如[147]中的球體損失和[95]中的AMsoftmax。另一種簡單而有效的策略,即標簽平滑[42]、[122],通常集成到標准的softmax交叉熵損失中。其基本思想是避免模型擬合過度自信的注釋標簽,提高泛化性[148]。

驗證損失。它使用對比損失[96]、[120]或二元驗證損失[43]、[141]優化成對關系。對比損失改進了相對成對距離比較,公式為

  其中dij表示兩個輸入樣本xi和xj的嵌入特征之間的歐幾里得距離。δ_ij是一個二元標簽指示符(當xi和xj屬於同一身份時δ_ij=1,否則δ_ij=0)。ρ是一個邊距參數。有幾種變體,例如,與[81]中的排序SVM的成對比較。

  二進制驗證[43]、[141]區分輸入圖像對的正負。通常,差分特征fij由fij=(fj-fi)2[141]獲得,其中fi和fj是兩個樣本xi和xj的嵌入特征。驗證網絡對差分特征進行分類分為正面或負面。我們使用p(δ_ij |f_ij)來表示輸入對(xi和xj)被識別為δ_ij(0或1)的概率。具有交叉熵的驗證損失為

  驗證通常與身份損失相結合,以提高性能[94]、[96]、[120]、[141]。

Triplet Loss。它將Re-ID模型訓練過程視為檢索排序問題。基本思想是正對之間的距離應該比負對小一個預定義的邊距[57]。通常,一個三元組包含一個錨樣本xi、一個具有相同身份的正樣本xj和一個來自不同身份的負樣本xk。帶邊距參數的三元組損失表示為

  其中d(·)測量兩個樣本之間的歐幾里得距離。如果我們直接優化上述損失函數,大部分容易三元組將主導訓練過程,導致可辨別性有限。為了緩解這個問題,已經設計了各種信息豐富的三元組挖掘方法[14]、[22]、[57]、[97]。基本思想是選擇信息豐富的三元組[57]、[149]。具體來說,在[149]中引入了具有權重約束的適度正挖掘,直接優化了特征差異。赫爾曼斯等人[57]證明每個訓練批次中最難的正負挖掘有利於判別式Re-ID模型學習。一些方法還研究了用於信息三元組挖掘的點設置相似性策略[150],[151]。這通過軟硬挖掘方案增強了對異常值樣本的魯棒性。

  為了進一步豐富三元組監督,在[152]中開發了一個四元組深度網絡,其中每個四元組包含一個錨樣本、一個正樣本和兩個挖掘的負樣本。四聯體是用基於邊際的在線硬負挖掘來制定的。優化四元組關系會導致更小的類內變異和更大的類間變異。

  Triplet loss和identity loss的結合是深度Re-ID模型學習最流行的解決方案之一[28]、[87]、[90]、[93]、[103]、[104]、[116]、[137]、[142]、[153]、[154]。這兩個組件對於判別特征表示學習是互惠互利的。

OIM Loss。除了上述三種損失函數外,還設計了一種在線實例匹配(OIM)損失[64],並采用了內存庫方案。內存庫{vk,k=1,2,…,c}包含存儲的實例特征,其中c表示類號。然后OIM損失由下式表示

  其中vi表示yi類對應的存儲記憶特征,並且是控制相似性空間的溫度參數[145]。v_i^T f_i衡量在線實例匹配分數。進一步包括與未標記身份的記憶特征集的比較,以計算分母[64],處理大量非目標身份的實例。這種記憶方案也被用於無監督域自適應Re-ID[106]。

2.2.2 訓練策略

  批量采樣策略在判別式Re-ID模型學習中起着重要作用。這是具有挑戰性的,因為每個身份的注釋訓練圖像的數量變化很大[5]。同時,嚴重不平衡的正負樣本對增加了訓練策略設計的額外難度[40]。

  處理不平衡問題最常用的訓練策略是身份抽樣[57]、[122]。對於每個訓練批次,隨機選擇一定數量的身份,然后從每個選定的身份中抽取幾張圖像。這種批量采樣策略保證了信息豐富的正負挖掘。

  為了處理正負之間的不平衡問題,自適應采樣是調整正負樣本貢獻的流行方法,例如采樣率學習(SRL)[89],課程采樣[87]。另一種方法是樣本重新加權,使用樣本分布[87]或相似性差異[52]來調整樣本權重。[155]中設計了一個有效的參考約束,將成對/三元組相似度轉換為樣本到參考相似度,解決不平衡問題並增強可辨別性,這對異常值也具有魯棒性。

  為了自適應地組合多個損失函數,多重損失動態訓練策略[156]自適應地重新加權身份損失和三重損失,提取它們之間共享的適當分量。這種多損失訓練策略可以帶來一致的性能提升。

2.3 排序優化

  排序優化對於提高測試階段的檢索性能起着至關重要的作用。給定一個初始排名列表,它通過自動圖庫到圖庫相似性挖掘[58]、[157]或人類交互[158]、[159]優化排名順序。Rank/Metric fusion[160]、[161]是另一種流行的方法,用於通過多個排名列表輸入來提高排名性能。

2.3.1 重排名

  重新排序的基本思想是利用畫廊間的相似度來優化初始排名列表,如圖4所示。在[157]中提出了排名靠前的相似性拉動和排名靠后的不相似性推送。廣泛使用的k-reciprocal reranking[58]挖掘上下文信息。[25]中應用了類似的上下文信息建模思想。白等人[162]利用底層流形的幾何結構。通過整合跨鄰域距離,引入了一種擴展的跨鄰域重排序方法[18]。局部模糊重新排序[95]采用聚類結構來改進鄰域相似度測量。

查詢自適應。考慮到查詢的差異,一些方法設計了查詢自適應檢索策略來代替統一的搜索引擎來提高性能[163],[164]。安迪等人[163]提出了一種使用局部保持投影的查詢自適應重新排序方法。[164]中提出了一種有效的在線局部度量自適應方法,該方法通過為每個探針挖掘負樣本來學習嚴格的局部度量。

人際交往。它涉及使用人工反饋來優化排名列表[158]。這在重新排序過程中提供了可靠的監督。[159]中提出了一種混合人機增量學習模型,該模型從人的反饋中累積學習,提高了實時的Re-ID排名性能。

2.3.2 排名融合

  排名融合利用通過不同方法獲得的多個排名列表來提高檢索性能[59]。鄭等人[165]在“L”形觀察之上提出了一種查詢自適應后期融合方法來融合方法。在[59]中開發了一種利用相似性和相異性的秩聚合方法。Person Re-ID中的等級融合過程被表述為使用圖論[166]的基於共識的決策問題,將多個算法獲得的相似度得分映射到帶有路徑搜索的圖中。最近為度量融合設計了統一集成擴散(UED)[161]。UED保留了三種現有融合算法的優勢,並通過新的目標函數和推導進行了優化。在[160]中也研究了度量集成學習。

2.4 數據集和評估

2.4.1 數據集和評估度量

數據集。我們首先回顧了封閉世界環境中廣泛使用的數據集,包括11個圖像數據集(VIPeR[31]、iLIDS[167]、GRID[168]、PRID2011[126]、CUHK0103[43]、Market-1501[5],DukeMTMC[42],Airport[169]和MSMT17[44])和7個視頻數據集(PRID-2011[126],iLIDS-VID[7],MARS[8],Duke-Video[144],Duke-Tracklet[170]、LPW[171]和LS-VID[136])。這些數據集的統計數據如表2所示。本次調查僅關注深度學習方法的一般大規模數據集。可以在[169]及其網站1(https://github.com/NEU-Gou/awesome-reid-dataset)中找到對Re-ID數據集的全面總結。就近年來的數據集收集而言,可以提出幾點意見:

1)數據集規模(#image和#ID)迅速增加。一般來說,深度學習方法可以從更多的訓練樣本中受益。這也增加了封閉世界行人Re-ID所需的注釋難度。2)攝像頭數量也大幅增加,以逼近實際場景中的大規模攝像頭網絡。這也為動態更新網絡中的模型泛化性帶來了額外的挑戰。3)邊界框的生成通常是自動檢測/跟蹤的,而不是手動裁剪的。這模擬了具有跟蹤/檢測錯誤的真實場景。

評估指標。為了評估Re-ID系統,累積匹配特性(CMC)[68]和平均平均精度(mAP)[5]是兩個廣泛使用的測量方法。

  CMC-k(又名,Rank-k匹配精度)[68]表示正確匹配出現在排名前k的檢索結果中的概率。當每個查詢只存在一個基本事實時,CMC是准確的,因為它只考慮評估過程中的第一個匹配項。但是,畫廊集通常包含大型相機網絡中的多個ground truths,CMC不能完全反映模型跨多個相機的可辨別性。

  另一個指標,即平均平均精度(mAP)[5],衡量了多個真實情況的平均檢索性能。它最初廣泛用於圖像檢索。對於Re-ID評估,它可以解決兩個系統在搜索第一個基本事實時表現相同的問題(可能很容易匹配,如圖4所示),但對於其他硬匹配具有不同的檢索能力。

  考慮到訓練Re-ID模型的效率和復雜性,最近的一些工作[138]、[139]還報告了每秒浮點操作數(FLOPs)和網絡參數大小作為評估指標。當訓練/測試設備的計算資源有限時,這兩個指標至關重要。

2.4.2 深入分析 State-of-The-Arts

  我們從基於圖像和基於視頻的角度回顧了最先進的技術。我們包括過去三年在頂級CV場所發表的方法。

基於圖像的Re-ID。基於圖像的Re-ID2(https://paperswithcode.com/task/person-re-identification)已經發表了大量論文。我們主要回顧了2019年發表的作品以及2018年的一些代表性作品。具體包括PCB[77]、MGN[172]、PyrNet[6]、Auto-ReID[139]、ABD-Net[173]、BagTricks[122]、OSNet[138]、DGNet[119]、SCAL[90]、MHN[174]、P2Net[104]、BDB[124]、SONA[107]、SFT[95]、ConsAtt[93]、DenseS[103]、Pyramid[156]、IANet[108]、VAL[114]。我們總結了四個數據集的結果(圖5)。該概述激發了五個主要見解,如下所述。

  首先,隨着深度學習的進步,大多數基於圖像的Re-ID方法在廣泛使用的Market-1501數據集上實現了比人類更高的rank-1准確率(93.5%[175])。特別是,VAL[114]在Market-1501數據集上獲得了91.6%的最佳mAP和96.2%的Rank-1准確度。VAL的主要優點是使用視點信息。使用重新排序或度量融合時可以進一步提高性能。在這些封閉世界數據集上深度學習的成功也促使人們將重點轉移到更具挑戰性的場景,即大數據量[136]或無監督學習[176]。

  其次,部件級級特征學習有利於判別式Re-ID模型學習。全局特征學習直接學習整個圖像的表示,沒有部件約束[122]。當人檢測/跟蹤可以准確定位人體時,它是有區別的。當人物圖像遭受大背景雜亂或嚴重遮擋時,部分級特征學習通常通過挖掘有區別的身體區域來獲得更好的性能[67]。由於其在處理錯位/遮擋方面的優勢,我們觀察到最近開發的大多數最先進的方法都采用了特征聚合范式,結合了部分級和全身特征[139]、[156]。

  第三,注意力有利於區分性的Re-ID模型學習。我們觀察到在每個數據集上實現最佳性能的所有方法(ConsAtt[93]、SCAL[90]、SONA[107]、ABD-Net[173])都采用了注意力方案。注意力捕捉不同卷積通道、多個特征圖、分層級、不同身體部位/區域甚至多個圖像之間的關系。同時,判別性[173]、多樣化[133]、一致[93]和高階[107]屬性被並入以增強注意力特征學習。考慮到強大的注意力方案和Re-ID問題的特殊性,專注的深度學習系統很有可能繼續主導Re-ID社區,並具有更多特定領域的屬性。

  第四,多損失訓練可以改善Re-ID模型的學習。不同的損失函數從多視圖的角度優化網絡。結合多個損失函數可以提高性能,最先進的方法中的多重損失訓練策略證明了這一點,包括ConsAtt[93]、ABD-Net[173]和SONA[107]。此外,[156]中設計了一種動態多損失訓練策略,以自適應地集成兩個損失函數。身份損失和三元組損失與硬挖掘相結合是首選。此外,由於不平衡問題,樣本加權策略通常通過挖掘信息豐富的三元組來提高性能[52]、[89]。

  最后,由於數據集規模不斷擴大、環境復雜、訓練樣本有限,還有很大的改進空間。例如,新發布的MSMT17數據集[44]上的Rank-1准確率(82.3%)和mAP(60.8%)遠低於Market-1501(Rank1:96.2%和mAP91.7%)和DukeMTMC(Rank-1:91.6%和mAP84.5%)。在其他一些訓練樣本有限的具有挑戰性的數據集上(例如,GRID[168]和VIPeR[31]),性能仍然非常低。此外,Re-ID模型通常在跨數據集評估[28]、[54]中受到嚴重影響,並且在對抗性攻擊下性能急劇下降[177]。我們樂觀地認為,Person Re-ID將會有重要的突破,具有更高的可辨別性、魯棒性和普遍性。

基於視頻的Re-ID。與基於圖像的Re-ID相比,基於視頻的Re-ID受到的關注較少。我們回顧了深度學習的Re-ID模型,包括CoSeg[132]、GLTR[136]、STA[135]、ADFD[110]、STC[20]、DRSA[133]、Snippet[134]、ETAP[144]、DuATM[91]、SDM[178]、TwoS[128]、ASTPN[131]、RQEN[171]、Forest[130]、RNN[127]和IDEX[8]。我們還總結了四個視頻Re-ID數據集的結果,如圖6所示。從這些結果中,可以得出以下觀察結果。

  首先,隨着深度學習技術的發展,多年來可以看到性能提高的明顯趨勢。具體來說,在PRID-2011數據集上,Rank-1准確度從70%(RNN[127],2016年)提高到95.5%(GLTR[136],2019年);在iLIDS-VID數據集上,從58%(RNN[127])提高到86.3%(ADFD[110])。在大規模MARS數據集上,Rank-1准確率/mAP從68.3%/49.3%(IDEX[8])提高到88.5%/82.3%(STC[20])。在Duke-Video數據集[144]上,STA[135]的Rank-1准確率也達到了96.2%,mAP為94.9%。

  其次,空間和時間建模對於判別式視頻表示學習至關重要。我們觀察到所有方法(STA[135]、STC[20]、GLTR[136])都設計了時空聚合策略來提高視頻Re-ID性能。與基於圖像的ReID類似,跨多幀[110]、[135]的注意力方案也大大增強了可辨別性。[20]中另一個有趣的觀察表明,利用視頻序列中的多個幀可以填充被遮擋區域,這為將來處理具有挑戰性的遮擋問題提供了可能的解決方案。

  最后,這些數據集的性能已經達到飽和狀態,這四個視頻數據集的准確度增益通常不到1%。但是,對於具有挑戰性的案例,仍有很大的改進空間。例如,在新收集的視頻數據集LS-VID[136]上,GLTR[136]的Rank1 accuracy/mAP只有63.1%/44.43%,而GLTR[136]可以達到state-of-the-art或至少在其他四個數據集上具有可比的性能。LS-VID[136]包含明顯更多的身份和視頻序列。這為基於視頻的Re-ID的未來突破提供了具有挑戰性的基准。

3、開放世界的行人再識別

  本節回顧第1節中討論的開放世界行人Re-ID,包括通過跨異構模式匹配行人圖像的異構Re-ID(第3.1節)、來自原始圖像/視頻的端到端Re-ID(第3.2節)、半/帶有有限/不可用注釋標簽的無監督學習(第3.3節),具有噪聲注釋的魯棒Re-ID模型學習(第3.4節)以及在圖庫中沒有出現正確匹配時的開放集行人Re-ID(第3.5節)。

3.1 異構Re-ID

  本小節總結了四種主要的異構Re-ID,包括深度和RGB圖像之間的Re-ID(第3.1.1節)、文本到圖像的Re-ID(第3.1.2節)、可見到紅外的Re-ID(§3.1.3)和交叉分辨率Re-ID(§3.1.4)。

3.1.1 基於深度的Re-ID

  深度圖像捕捉身體形狀和骨骼信息。這為在照明/換衣環境下進行Re-ID提供了可能性,這對於個性化的人類交互應用也很重要。[179]中提出了一種基於循環注意力的模型來解決基於深度的行人識別問題。在強化學習框架中,他們結合卷積和循環神經網絡來識別人體的小的、有區別的局部區域。卡里亞納基斯等人[180]利用大型RGB數據集設計了一種拆分率RGB到深度的傳輸方法,該方法彌合了深度圖像和RGB圖像之間的差距。他們的模型進一步結合了時間關注來增強深度Re-ID的視頻表示。一些方法[62]、[181]還研究了RGB和深度信息的組合以提高Re-ID性能,解決換衣服的挑戰。

3.1.2 文本到圖像的Re-ID

  Text-to-image Re-ID 解決了文本描述和RGB圖像[63]之間的匹配問題。當無法獲取查詢人的視覺圖像時,必須提供,只能提供文字描述。

  具有循環神經網絡的門控神經注意力模型[63]學習文本描述和人物圖像之間的共享特征。這使得文本到圖像行人檢索的端到端訓練成為可能。程等人[182]提出了一種全局判別圖像-語言關聯學習方法,在重建過程中捕獲身份判別信息和局部重建圖像-語言關聯。交叉投影學習方法[183]還通過圖像到文本匹配來學習共享空間。在[184]中設計了一個深度對抗圖注意力卷積網絡,其中包含圖關系挖掘。然而,文本描述和視覺圖像之間的巨大語義差距仍然具有挑戰性。同時,如何將文字與手繪素描圖像結合起來也值得今后研究。

3.1.3 可見紅外Re-ID

  Visible-Infrared Re-ID處理白天可見光和夜間紅外圖像之間的交叉模態匹配。這在低光照條件下很重要,在這種情況下,圖像只能由紅外攝像機[21]、[60]、[185]捕獲。

  吳等人[21]通過提出一個深度零填充框架[21]來自適應地學習模態可共享特征,開始了解決這個問題的第一次嘗試。在[142]、[186]中引入了一個雙流網絡來對模態共享和特定信息進行建模,同時解決模態內和跨模態的變化。除了交叉模態共享嵌入學習[187],分類器級別的差異也在[188]中進行了研究。最近的方法[189]、[190]采用GAN技術生成跨模態人物圖像,以減少圖像和特征級別的跨模態差異。[191]中對分層交叉模態解纏結因素進行了建模。[192]中提出了一種雙注意力聚合學習方法來捕獲多級關系。

3.1.4 交叉分辨率Re-ID

  Cross-Resolution Re-ID在低分辨率和高分辨率圖像之間進行匹配,解決大分辨率變化[13]、[14]。級聯SR-GAN[193]以級聯方式生成高分辨率人物圖像,並結合身份信息。李等人[194]采用對抗學習技術來獲得分辨率不變的圖像表示。

3.2 端到端Re-ID

  端到端的Re-ID減輕了對生成邊界框的額外步驟的依賴。它涉及從原始圖像或視頻中重新識別行人,以及多攝像頭跟蹤。

  原始圖像/視頻中的重識別 此任務要求模型在單個框架中聯合執行行人檢測和重識別[55]、[64]。由於兩個主要組成部分的側重點不同,因此具有挑戰性。

  鄭等人[55]提出了一個兩階段框架,並系統地評估了后期行人Re-ID的行人檢測的好處和局限性。肖等人[64]使用單個卷積神經網絡設計端到端行人搜索系統,用於聯合行人檢測和重新識別。開發了一種神經行人搜索機(NPSM)[195],通過充分利用查詢和檢測到的候選區域之間的上下文信息來遞歸地細化搜索區域並定位目標人。類似地,在圖學習框架中學習上下文實例擴展模塊[196]以改進端到端行人搜索。使用Siamese擠壓和激勵網絡開發了一個查詢引導的端到端行人搜索系統[197],以通過查詢引導的區域提議生成來捕獲全局上下文信息。[198]中引入了一種具有判別性Re-ID特征學習的定位細化方案,以生成更可靠的邊界框。身份鑒別注意力強化學習(IDEAL)方法[199]為自動生成的邊界框選擇信息區域,從而提高Re-ID性能。

  山口等人[200]研究一個更具挑戰性的問題,即從帶有文本描述的原始視頻中搜索人。提出了一種時空人物檢測和多模態檢索的多階段方法。預計沿着這個方向進一步探索。
多攝像頭跟蹤。端到端行人重識別也與多人、多攝像頭跟蹤密切相關[52]。為多人跟蹤[201]提出了一種基於圖的公式來鏈接人的假設,其中將整個人體和身體姿勢布局的整體特征組合為每個人的表示。里斯塔尼等人[52]通過硬身份挖掘和自適應加權三元組學習來學習多目標多攝像機跟蹤和行人Re-ID之間的相關性。最近,提出了一種具有相機內和相機間關系建模的局部感知外觀度量(LAAM)[202]。

3.3 半監督和無監督Re-ID

3.3.1 無監督Re-ID

  早期的無監督Re-ID主要學習不變的組件,即字典[203]、度量[204]或顯着性[66],這導致可區分性或可擴展性有限。

  對於深度無監督的方法,跨相機標簽估計是一種流行的方法[176],[205]。動態圖匹配(DGM)[206]將標簽估計公式化為二分圖匹配問題。為了進一步提高性能,利用全局相機網絡約束[207]進行一致匹配。劉等人通過逐步度量提升[204]逐步挖掘標簽。一種魯棒的錨嵌入方法[83]迭代地將標簽分配給未標記的軌跡,以擴大錨視頻序列集。通過估計的標簽,可以應用深度學習來學習Re-ID模型。

  對於端到端無監督Re-ID,在[205]中提出了一種迭代聚類和Re-ID模型學習。類似地,樣本之間的關系被用於層次聚類框架[208]。軟多標簽學習[209]從參考集中挖掘軟標簽信息以進行無監督學習。Tracklet Association無監督深度學習(TAUDL)框架[170]共同進行相機內tracklet關聯並模擬跨相機tracklet相關性。類似地,一種無監督的相機感知相似性一致性挖掘方法[210]也在粗到細的一致性學習方案中提出。相機內挖掘和相機間關聯應用於圖關聯框架[211]。可轉移聯合屬性-身份深度學習(TJAIDL)框架[111]也采用了語義屬性。然而,使用新到達的未標記數據進行模型更新仍然具有挑戰性。

  此外,一些方法還嘗試基於觀察到局部部分的標簽信息比整個圖像更容易挖掘標簽信息來學習部分級表示。PatchNet[153]旨在通過挖掘補丁級別的相似性來學習有區別的補丁特征。自相似分組(SSG)方法[212]以自定進度的方式迭代地進行分組(利用全局身體和局部部位的相似性進行偽標記)和Re-ID模型訓練。

  半/弱監督Re-ID。 在標簽信息有限的情況下,[213]中提出了一種一次性度量學習方法,該方法結合了深度紋理表示和顏色度量。[144]中提出了一種基於視頻的Re-ID逐步單次學習方法(EUG),逐漸從未標記的軌跡中選擇一些候選者來豐富標記的軌跡集。多實例注意力學習框架[214]使用視頻級標簽進行表示學習,減輕了對完整注釋的依賴。

3.3.2 無監督域自適應

  無監督域適應(UDA)將標記的源數據集上的知識轉移到未標記的目標數據集[53]。由於源數據集中的大域轉移和強大的監督,它是另一種沒有目標數據集標簽的無監督Re-ID的流行方法。

  目標圖像生成。使用GAN生成將源域圖像轉換為目標域樣式是UDA Re-ID的一種流行方法。使用生成的圖像,這可以在未標記的目標域中進行有監督的Re-ID模型學習。魏等人[44]提出了一種行人遷移生成對抗網絡(PTGAN),將知識從一個標記的源數據集傳輸到未標記的目標數據集。保留的自相似性和域相異性[120]使用保留相似性的生成對抗網絡(SPGAN)進行訓練。異構學習(HHL)方法[215]同時考慮了同質學習的相機不變性和異構學習的域連通性。自適應傳輸網絡[216]將自適應過程分解為某些成像因素,包括光照、分辨率、相機視圖等。這種策略提高了跨數據集的性能。黃等人[217]嘗試抑制背景偏移以最小化域偏移問題。陳等人[218]設計了一種實例引導的上下文渲染方案,將人的身份從源域轉移到目標域中的不同上下文中。此外,還添加了一個姿勢解糾纏方案來改進圖像生成[121]。在[219]中還開發了一種相互平均教師學習方案。然而,實際大規模變化環境的圖像生成的可擴展性和穩定性仍然具有挑戰性。

  巴克等人[125]生成具有不同照明條件的合成數據集,以模擬真實的室內和室外照明。合成的數據集增加了學習模型的泛化性,並且可以很容易地適應新的數據集而無需額外的監督[220]。
  目標域監督挖掘。一些方法使用來自源數據集的訓練有素的模型直接挖掘對未標記目標數據集的監督。示例記憶學習方案[106]將三個不變線索視為監督,包括示例不變性、相機不變性和鄰域不變性。域不變映射網絡(DIMN)[28]為域遷移任務制定了一個元學習管道,並在每個訓練集對源域的一個子集進行采樣以更新內存庫,從而增強可擴展性和可辨別性。攝像機視圖信息也在[221]中用作監督信號以減少域間隙。一種具有漸進增強的自我訓練方法[222]聯合捕獲目標數據集上的局部結構和全局數據分布。最近,一種具有混合記憶的自定進度對比學習框架[223]取得了巨大成功,它可以動態生成多級監督信號。

  時空信息也被用作TFusion[224]中的監督。TFusion使用貝葉斯融合模型將在源域中學習到的時空模式轉移到目標域。同樣,開發了Query Adaptive Convolution(QAConv)[225]以提高跨數據集的准確性。

3.3.3 無監督Re-ID SOTA

  近年來,無監督Re-ID獲得了越來越多的關注,頂級CV的出版物數量不斷增加就是明證。我們回顧了SOTA在兩個廣泛使用的基於圖像的Re-ID數據集上的無監督深度學習方法。結果總結在表3中。從這些結果中,可以得出以下見解。

  首先,無監督的Re-ID性能多年來顯着提高。Market-1501數據集的Rank-1准確率/mAP在三年內從54.5%/26.3%(CAMEL[226])增加到90.3%/76.7%(SpCL[223])。DukeMTMC數據集的性能從30.0%/16.4%提高到82.9%/68.8%。監督和無監督學習之間的差距顯着縮小。這證明了無監督Re-ID與深度學習的成功。

  其次,目前的無監督Re-ID仍然不發達,可以在以下方面進一步改進:1)有監督的ReID方法中強大的注意力方案很少應用於無監督的ReID。2)目標域圖像生成已在某些方法中被證明是有效的,但它們並未應用於兩種最佳方法(PAST[222],SSG[212])。3)在目標域的訓練過程中使用帶注釋的源數據有利於跨數據集學習,但也不包括在上述兩種方法中。這些觀察結果為進一步改進提供了潛在基礎。

  第三,無監督和有監督的Re-ID之間仍然存在很大差距。例如,有監督的ConsAtt[93]在Market1501數據集上的rank-1准確率已達到96.1%,而無監督SpCL[223]的最高准確率約為90.3%。最近,何等人[229]已經證明,具有大規模未標記訓練數據的無監督學習能夠在各種任務上優於監督學習[230]。我們預計未來無監督Re-ID會取得一些突破。

3.4 噪聲魯棒的Re-ID

  由於數據收集和注釋困難,Re-ID通常會遇到不可避免的噪聲。我們從三個方面回顧了噪聲魯棒性Re-ID:具有嚴重遮擋的Partial Re-ID、具有由檢測或跟蹤錯誤引起的樣本噪聲的Re-ID,以及具有由注釋錯誤引起的標簽噪聲的Re-ID。

  Partial Re-ID。這解決了重度遮擋的Re-ID問題,即只有人體的一部分是可見的[231]。采用全卷積網絡[232]為不完整的人物圖像生成固定大小的空間特征圖。深度空間特征重建(DSR)被進一步結合,以避免通過利用重建誤差進行顯式對齊。孫等人[67]設計了一個可見性感知零件模型(VPM)來提取可共享的區域級特征,從而抑制不完整圖像中的空間錯位。前景感知金字塔重建方案[233]也試圖從未被遮擋的區域中學習。Pose-Guided Feature Alignment(PGFA)[234]利用姿勢界標從遮擋噪聲中挖掘有區別的部分信息。然而,由於嚴重的部分錯位、不可預測的可見區域和分散注意力的未共享身體區域,它仍然具有挑戰性。同時,如何針對不同的查詢自適應地調整匹配模型仍需進一步研究。

  使用樣本噪聲重新識別。這是指人物圖像或視頻序列包含邊緣區域/幀的問題,這可能是由於檢測不佳/跟蹤結果不准確造成的。為了處理人物圖像中的外圍區域或背景雜亂,利用了姿勢估計線索[17]、[18]或注意力線索[22]、[66]、[199]。基本思想是抑制噪聲區域在最終整體表示中的貢獻。對於視頻序列,集級特征學習[83]或幀級重新加權[134]是減少噪聲幀影響的常用方法。侯等人[20]還利用多個視頻幀來自動完成遮擋區域。預計未來會有更多特定領域的樣本噪聲處理設計。

  使用標簽噪聲重識別。由於標注錯誤,標簽噪聲通常是不可避免的。鄭等人采用標簽平滑技術來避免標簽過度擬合問題[42]。[235]中提出了一種對特征不確定性進行建模的分布網絡(DNet),用於針對標簽噪聲進行穩健的Re-ID模型學習,從而減少具有高特征不確定性的樣本的影響。與一般分類問題不同,魯棒的Re-ID模型學習受到每個身份的訓練樣本有限[236]的影響。此外,未知的新身份增加了魯棒Re-ID模型學習的額外難度。

3.5 開放集Re-ID及其他

  Open-set Re-ID 通常被表述為一個人驗證問題,即區分兩個人圖像是否屬於同一身份[69]、[70]。驗證通常需要學習條件,即sim(query;gallery)>T。早期的研究設計了手工系統[26]、[69]、[70]。對於深度學習方法,[237]中提出了Adversarial PersonNet(APN),它聯合學習了GAN模塊和Re-ID特征提取器。該GAN的基本思想是生成逼真的類似目標的圖像(冒名頂替者)並強制特征提取器對生成的圖像攻擊具有魯棒性。[235]中還研究了建模特征不確定性。然而,實現高真實目標識別並保持低錯誤目標識別率仍然相當具有挑戰性[238]。

  組重識別。 它旨在將人與群體而不是個人聯系起來[167]。早期的研究主要集中在稀疏字典學習[239]或協方差描述符聚合[240]的組表示提取上。多粒度信息集成在[241]中,以充分捕捉群體的特征。最近,圖卷積網絡被應用在[242]中,將組表示為一個圖。組相似性也應用於端到端行人搜索[196]和個體重新識別[197]、[243]以提高准確性。然而,組Re-ID仍然具有挑戰性,因為組變化比個體更復雜。

  動態多攝像機網絡。 動態更新的多相機網絡是另一個具有挑戰性的問題[23]、[24]、[27]、[29],它需要對新相機或探測器進行模型調整。[24]中引入了一種人工在環增量學習方法來更新Re-ID模型,使表示適應不同的探針庫。早期研究還將主動學習[27]應用於多攝像頭網絡中的連續Re-ID。[23]中介紹了一種基於稀疏非冗余代表選擇的連續自適應方法。傳遞推理算法[244]旨在利用基於測地線流內核的最佳源相機模型密集人群和社會關系中的多個環境約束(例如,相機拓撲)被集成到一個開放世界的行人Re-ID系統[245]。攝像機的模型適應和環境因素在實際的動態多攝像機網絡中至關重要。此外,如何將深度學習技術應用於動態多攝像頭網絡的研究還較少。

4、展望:下一個時代的重新識別

  本節首先在第4.1節中介紹了一個新的評估指標,然后介紹行人Re-ID的強基線(在第4.2節中)。它為未來的Re-ID研究提供了重要的指導。最后,我們將在第4.3節中討論一些未充分調查的未解決問題。

4.1 mINP:一種新的Re-ID評估指標

  對於一個好的Re-ID系統,目標人應該被盡可能准確地檢索到,即所有正確的匹配應該具有低排名值。考慮到目標人物在排名靠前的檢索列表中不應被忽視,尤其是對於多攝像頭網絡,從而准確跟蹤目標。當目標人物出現在多個時間戳集合中時,最難正確匹配的排名位置決定了檢查員進一步調查的工作量。然而,目前廣泛使用的CMC和mAP指標無法評估該屬性,如圖7所示。在相同的CMC下,rank list 1比rank list 2獲得更好的AP,但需要更多的努力才能找到所有正確的匹配項.為了解決這個問題,我們設計了一種計算效率高的度量,即負懲罰(NP),它測量懲罰以找到最難的正確匹配

  其中Rhardi表示最難匹配的排名位置,|Gi|表示查詢i的正確匹配總數。自然,較小的NP代表更好的性能。為了與CMC和mAP保持一致,我們更喜歡使用逆負懲罰(INP),它是NP的逆運算。總體而言,所有查詢的平均INP表示為

  mINP的計算非常高效,可以無縫集成到CMC/mAP計算過程中。mINP避免了mAP/CMC評估中容易匹配的支配。一個限制是與小型畫廊相比,大型畫廊的mINP值差異會小得多。但它仍然可以反映Re-ID模型的相對性能,為廣泛使用的CMC和mAP指標提供補充。

4.2 單/跨模態重識別的新基線

  根據第2.4.2節中的討論,我們為person Re-ID設計了一個新的AGW3基線,它在單模態(圖像和視頻)和跨模態Re-ID任務上都取得了競爭性能。具體來說,我們的新基線是在BagTricks[122]之上設計的,AGW包含以下三個主要改進組件:

(1)非局部注意力(Att)塊。如第2.4.2節所述,注意方案在判別式Re-ID模型學習中起着至關重要的作用。我們采用強大的非局部注意力塊[246]來獲得所有位置特征的加權和,表示為

  其中Wz是要學習的權重矩陣,∅(∙)表示非局部操作,+xi制定殘差學習策略。細節可以在[246]中找到。我們采用[246]中的默認設置來插入非局部注意力塊。

(2)廣義平均(GeM)池化。作為細粒度的實例檢索,廣泛使用的最大池化或平均池化無法捕獲特定領域的判別特征。我們采用了一個可學習的池化層,稱為廣義均值(GeM)池化[247],其公式為

  其中fk表示特征圖,K是最后一層中特征圖的數量。Xk是特征圖k∈{1,2,…,K}的WxH激活集;pk是一個池化超參數,在反向傳播過程中學習[247]。當p_k→∞時,上述操作近似於最大池化,當p_k=1時,上述操作近似於平均池化。

(3)加權正則化三元組(WRT)損失。除了使用softmax交叉熵的基線身份損失之外,我們還集成了另一個加權正則化三元組損失:

  其中(I,j,k)表示每個訓練批次中的硬三元組。對於anchor i,Pi是對應的正集,Ni是負集。dpij/dnik表示正/負樣本對的成對距離。上述加權正則化繼承了正負對之間相對距離優化的優點,但它避免引入任何額外的邊距參數。我們的加權策略類似於[248],但我們的解決方案沒有引入額外的超參數。

  AGW的總體框架如圖8所示。其他組件與[122]完全相同。在測試階段,采用BN層的輸出作為Re-ID的特征表示。實施細節和更多實驗結果在補充材料中。

單模態圖像重識別結果。我們首先在表4中的基於圖像的兩個數據集(Market1501和DukeMTMC)上評估每個組件。我們還列出了兩種最先進的方法,BagTricks[122]和ABD-Net[173]。我們在表5中報告了CUHK03和MSMT17數據集的結果。我們獲得了以下兩個觀察結果:

1)所有組件始終有助於提高准確性,並且AGW在各種指標下的表現都比原始BagTricks好得多。AGW為未來的改進提供了強有力的基准。我們還嘗試結合部件級特征學習[77],但大量實驗表明它並沒有提高性能。如何將part-level的特征學習與AGW進行聚合,未來需要進一步研究。

2)與當前最先進的ABD-Net[173]相比,AGW在大多數情況下表現良好。特別是,我們在DukeMTMC數據集上實現了更高的mINP,分別為45.7%和42.1%。這表明AGW找到所有正確匹配項所需的工作更少,驗證了mINP的能力。

單模態視頻重識別結果。我們還在廣泛使用的基於單模態視頻的四個數據集(MARS[8]、DukeVideo[144]、PRID2011[126]和iLIDS-VID[7])上評估了提議的AGW,如表6所示。我們還比較了兩種狀態最先進的方法,BagTricks[122]和Co-Seg[132]。對於視頻數據,我們開發了一個變體(AGW+)來捕獲時間信息,通過幀級平均池化來進行序列表示。同時,約束隨機抽樣策略[133]用於訓練。與Co-Seg[132]相比,我們的AGW+在大多數情況下獲得了更好的Rank-1、mAP和mINP。

Partial Re-ID的結果。我們還在兩個Partial Re-ID數據集上測試了AGW的性能,如表7所示。實驗設置來自DSR[232]。我們還使用最先進的VPM方法[67]實現了可比的性能。該實驗進一步證明了AGW在開放世界Partial Re-ID任務中的優越性。同時,mINP也展示了這個開放世界Re-ID問題的適用性。

跨模態重識別的結果。我們還在跨模態可見紅外Re-ID任務上使用雙流架構測試了AGW的性能。在兩個數據集上與當前最先進技術的比較如表8所示。我們按照AlignG[190]中的設置進行實驗。結果表明,AGW比現有的跨模態Re-ID模型實現了更高的准確度,驗證了開放世界Re-ID任務的有效性。

4.3 未充分調查的未解決問題

  我們根據§1中的五個步驟從五個不同方面討論開放問題,包括不可控的數據收集、人工注釋最小化、特定領域/可概括的架構設計、動態模型更新和高效模型部署。

4.3.1 不可控的數據收集

  大多數現有的Re-ID作品在定義明確的數據收集環境中評估他們的方法。然而,真實復雜環境中的數據采集是不可控的。數據可能是從不可預測的模態、模態組合,甚至是換衣數據中獲取的[30]。

  多異構數據。在實際應用中,ReID數據可能是從多種異構模態中捕獲的,即人物圖像的分辨率變化很大[193],查詢集和圖庫集可能包含不同的模態(可見、熱[21]、深度[62]或文字描述[10])。這導致了具有挑戰性的多個異類行人Re-ID。一個好的行人重識別系統將能夠自動處理不斷變化的分辨率、不同的模式、各種環境和多個領域。預計未來的工作具有廣泛的普遍性,評估他們針對不同Re-ID任務的方法。

  換裝數據。在實際的監控系統中,很可能會包含大量正在換衣服的目標行人。服裝變化感知網絡(CCAN)[250]通過分別提取面部和身體上下文表示來解決這個問題,並且在[251]中應用了類似的想法。楊等人[30]提出了一種空間極坐標變換(SPT)來學習跨服裝不變表示。但是,它們仍然嚴重依賴面部和身體外觀,這在實際場景中可能不可用且不穩定。進一步探索其他判別線索(例如步態、形狀)來解決換布問題的可能性會很有趣。

4.3.2 人工注釋最小化

  除了無監督學習,主動學習或人機交互[24]、[27]、[154]、[159]提供了另一種可能的解決方案來減輕對人工注釋的依賴。

  主動學習。結合人工交互,可以輕松地為新到達的數據提供標簽,並且可以隨后更新模型[24]、[27]。成對子集選擇框架[252]通過首先構建一個邊加權的完整kpartite圖,然后將其作為一個無三角形子圖最大化問題來解決,從而最大限度地減少了人工標記工作。沿着這條線,深度強化主動學習方法[154]迭代地改進學習策略,並在人工環內監督下訓練一個Re-ID網絡。對於視頻數據,設計了一種具有順序決策的可解釋強化學習方法[178]。主動學習在實際的Re-ID系統設計中至關重要,但在研究界卻很少受到關注。此外,即使對人類來說,新出現的身份也極具挑戰性。未來有望實現高效的人類在環主動學習。

  學習虛擬數據。這為最小化人工注釋提供了替代方案。在[220]中收集了一個合成數據集進行訓練,當在這個合成數據集上訓練時,它們在真實世界的數據集上取得了有競爭力的表現。巴克等人[125]生成具有不同照明條件的新合成數據集,以模擬逼真的室內和室外照明。在[105]中收集了一個大規模的合成PersonX數據集,以系統地研究視點對行人Re-ID系統的影響。最近,[253]還研究了3D人物圖像,從2D圖像生成3D身體結構。然而,如何彌合合成圖像和真實世界數據集之間的差距仍然具有挑戰性。

4.3.3 特定領域/通用架構設計

  Re-ID特定架構。現有的Re-ID方法通常采用為圖像分類設計的架構作為主干。一些方法修改架構以實現更好的Re-ID功能[82]、[122]。最近,研究人員已經開始設計特定領域的架構,例如具有全方位特征學習的OSNet[138]。它在一定尺度上檢測小尺度的判別特征。OSNet是極其輕量級的並且實現了具有競爭力的性能。隨着自動神經架構搜索(例如,Auto-ReID[139])的進步,更多特定領域的強大架構有望解決特定於任務的Re-ID挑戰。Re-ID中有限的訓練樣本也增加了架構設計的難度。

  域可泛化的Re-ID。眾所周知,不同數據集[56]、[225]之間存在很大的域差距。大多數現有方法采用域適應進行跨數據集訓練。一個更實用的解決方案是學習具有多個源數據集的域泛化模型,這樣學習的模型可以推廣到新的未見數據集,以進行有區別的ReID,而無需額外的訓練[28]。胡等人[254]通過引入部件級CNN框架研究了跨數據集的行人Re-ID。Domain-Invariant Mapping Network (DIMN)[28]設計了一個用於域可泛化Re-ID的元學習管道,學習人物圖像與其身份分類器之間的映射。域泛化性對於在未知場景下部署學習到的Re-ID模型至關重要。

4.3.4 動態模型更新

  固定模型不適用於實際的動態更新監控系統。為了緩解這個問題,動態模型更新勢在必行,無論是針對新域/相機還是適應新收集的數據。

  模型適應新領域/相機。模型適應新領域已在文獻中被廣泛研究為領域適應問題[125],[216]。在實際的動態攝像機網絡中,新的攝像機可能會臨時插入到現有的監控系統中。

  模型適應對於多攝像頭網絡中的連續識別至關重要[23]、[29]。為了使學習模型適應新相機,傳遞推理算法[244]旨在利用基於測地線流內核的最佳源相機模型。但是,當新相機新收集的數據具有完全不同的分布時,仍然具有挑戰性。此外,隱私和效率問題[255]也需要進一步考慮。

  使用新到達的數據更新模型。使用新收集的數據,從頭開始訓練先前學習的模型是不切實際的[24]。在[24]中設計了一種增量學習方法以及人類交互。對於深度學習的模型,將使用協方差損失[256]的加法集成到整體學習功能中。然而,由於深度模型訓練需要大量的訓練數據,這個問題沒有得到很好的研究。此外,新到達的數據中未知的新身份難以識別用於模型更新。

4.3.5 高效的模型部署

  設計高效且自適應的模型以解決實際模型部署的可擴展性問題非常重要。

  快速重識別。為了快速檢索,哈希算法已被廣泛研究以提高搜索速度,近似於最近鄰搜索[257]。跨相機語義二進制變換(CSBT)[258]將原始的高維特征表示轉換為緊湊的低維身份保持二進制代碼。在[259]中開發了一種粗到細(CtF)哈希碼搜索策略,互補地使用短碼和長碼。但是,特定領域的哈希算法仍然需要進一步研究。

  輕量級模型。解決可擴展性問題的另一個方向是設計一個輕量級的Re-ID模型。在[86][138]、[139]中研究了修改網絡架構以實現輕量級模型。模型蒸餾是另一種方法,例如,在[260]中提出了一種多教師自適應相似性蒸餾框架,該框架從多個教師模型中學習用戶指定的輕量級學生模型,而無需訪問源域數據。

  資源感知重識別。根據硬件配置自適應地調整模型也提供了處理可擴展性問題的解決方案。Deep Anytime ReID(DaRe)[14]采用簡單的基於距離的路由策略來自適應地調整模型,以適應具有不同計算資源的硬件設備。

5、結束語

  本文從封閉世界和開放世界的角度進行了全面調查,並進行了深入分析。我們首先從特征表示學習、深度度量學習和排名優化三個方面介紹封閉世界設置下廣泛研究的Person Re-ID。借助強大的深度學習,封閉世界行人Re-ID在多個數據集上實現了性能飽和。相應地,開放世界的設置最近受到越來越多的關注,努力應對各種實際挑戰。我們還設計了一個新的AGW基線,它在各種指標下的四個Re-ID任務上實現了具有競爭力的性能。它為未來的改進提供了強有力的基准。該調查還引入了一個新的評估指標來衡量找到所有正確匹配項的成本。我們相信這項調查將為未來的Re-ID研究提供重要的指導。

應用材料

  這份補充材料與我們的主要手稿一起提供了實施細節和更全面的實驗。我們首先介紹了兩個單模態封閉世界Re-ID任務的實驗,包括A節中四個數據集上的基於圖像的Re-ID和B節中四個數據集上的基於視頻的Re-ID。然后我們介紹了在兩個開放世界的Re-ID任務,包括C節中兩個數據集上的可見紅外跨模態ReID和D節中兩個數據集上的Partial Re-ID。此外,最后總結了我們調查的結構概述。

A.基於單模態圖像的Re-ID實驗

架構設計。我們提出的用於單模態Re-ID的AGW基線的整體結構(https://github.com/mangye16/ReID-Survey)在第4節(圖R1)中進行了說明。我們采用在ImageNet上預訓練的ResNet50作為我們的骨干網絡,並將全連接層的維度更改為與訓練數據集中的身份數量一致。骨干網絡中最后一次空間下采樣操作的步幅從2變為1。因此,當輸入分辨率為256x128的圖像時,輸出特征圖的空間大小從8x4變為16x8。在我們的方法中,我們將原始ResNet50中的全局平均池化替換為廣義均值(GeM)池化。廣義均值池化的池化超參數pk初始化為3.0。一個名為BNNeck的BatchNorm層插入在GeM池化層和全連接層之間。訓練階段采用GeM池化層的輸出計算中心損失和三元組損失,而測試推理階段使用BNNeck后的特征計算行人圖像之間的距離。

非局部注意力。ResNet包含4個殘差階段,即conv2_x、conv3_x、conv4_x和conv5_x,每個階段都包含瓶頸殘差塊的堆棧。我們分別在conv3_3、conv3_4、conv4_4、conv4_5和conv4_6之后插入了五個非本地塊。我們在實驗中采用了瓶頸為512個通道的非本地塊的點積版本。對於每個非局部塊,在表示Wz的最后一個線性層之后添加一個BatchNorm層。這個BatchNorm層的仿射參數被初始化為零,以確保非局部塊可以插入到任何預訓練的網絡中,同時保持其初始行為。

訓練策略。在訓練階段,我們隨機抽取16個身份和每個身份的4張圖像,形成大小為64的mini-batch。每張圖像被調整為256x128個像素,用0填充10個像素,然后隨機裁剪成256x128像素。數據增強也分別采用了0.5概率的隨機水平翻轉和隨機擦除。

  具體來說,隨機擦除增強[123]隨機選擇一個面積比為re的矩形區域與整個圖像,並用圖像的平均值擦除其像素。此外,該區域的縱橫比在r1和r2之間隨機初始化。在我們的方法中,我們將上述超參數設置為0.02<re<0.4,r1=0.3和r2=3.33。最后,我們對每幅圖像的RGB通道進行歸一化,均值分別為0.485、0.456、0.406,標准偏差分別為0.229、0.224、0.225,與[122]中的設置相同。

訓練損失。在訓練階段,結合三種損失進行優化,包括身份分類損失(Lid)、中心損失(Lct)和我們提出的加權正則化三元組損失(Lwrt)。

  中心損失(1)的平衡權重設置為0.0005,加權正則化三元組損失的權重(2)設置為1.0。采用標簽平滑來改善原始身份分類損失,這鼓勵模型在訓練過程中不那么自信,並防止過度擬合分類任務。具體來說,它將one-hot標簽更改如下:

  其中N是身份總數,是一個小常數,用於降低真實身份標簽y的置信度,qi被視為訓練的新分類目標。在我們的方法中,我們設置為0.1。

優化器設置。采用權重衰減0.0005的Adam優化器來訓練我們的模型。初始學習率設置為0.00035,在第40輪和第70輪分別降低0.1。該模型總共訓練了120個epoch。此外,還采用了預熱學習率方案來提高訓練過程的穩定性並引導網絡以獲得更好的性能。

  具體來說,在前10個epoch中,學習率從3.5e-5線性增加到3.5e-4。Epoch t的學習率lr(t)可以計算為:

B.基於視頻的Re-ID實驗

實施細節。我們通過對基於單模圖像的Re-ID模型的主干結構和訓練策略進行一些小的更改,將我們提出的AGW基線擴展到基於視頻的Re-ID模型。基於視頻的AGW基線將視頻序列作為輸入並提取幀級特征向量,然后在BNNeck層之前將其平均為視頻級特征向量。此外,基於視頻的AGW基線總共訓練了400個epoch,以更好地擬合視頻人物Re-ID數據集。學習率每100個epoch衰減10倍。為了形成輸入視頻序列,我們采用約束隨機采樣策略[133]采樣4幀作為原始行人軌跡的摘要。BagTricks[122]基線以與AGW基線相同的方式擴展到基於視頻的Re-ID模型,以進行公平比較。此外,我們還開發了AGW基線的變體,稱為AGW+,用於對行人軌跡中更豐富的時間信息進行建模。AGW+基線在測試階段采用密集采樣策略形成輸入視頻序列。密集采樣策略將行人軌跡中的所有幀組成輸入視頻序列,從而獲得更好的性能但更高的計算成本。為了進一步提高AGW+baseline在視頻re-ID數據集上的性能,我們還移除了預熱學習率策略,並在線性分類層之前添加了dropout操作。

詳細比較。在本節中,我們將AGW基線與其他最先進的基於視頻的行人Re-ID方法進行性能比較,包括ETAP[144]、DRSA[133]、STA[135]Snippet[134]、VRSTC[20]、ADFD[110]、GLTR[136]和CoSeg[132]。表R1列出了四個視頻人Re-ID數據集(MARS、DukeVideo、PRID2011和iLIDS-VID)的比較結果。我們可以看到,通過簡單地將視頻序列作為輸入並采用平均池化來聚合幀級特征,我們的AGWbaseline在MARS和DukeVideo這兩個大規模視頻Re-ID數據集上取得了有競爭力的結果。此外,AGW基線在多個評估指標下的表現也明顯優於BagTricks[122]基線。通過進一步建模更多的時間信息和調整訓練策略,AGW+基線獲得了巨大的改進,並且在PRID2011和iLIDS-VID數據集上也取得了有競爭力的結果。AGW+基線在MARS、DukeVideo和PRID2011數據集上優於大多數最先進的方法。這些基於視頻的行人重識別方法中的大多數通過設計復雜的時間注意機制來利用行人視頻中的時間依賴性來實現最先進的性能。我們相信我們的AGW基線可以幫助視頻Re-ID模型通過適當設計的機制實現更高的性能,以進一步利用空間和時間依賴性。

C. 跨模態重識別實驗

架構設計。我們采用雙流網絡結構作為跨模態可見紅外ReID5(https://github.com/mangye16/Cross-Modal-Re-ID-baseline)的主干。與單模態人Re-ID中的單流架構(圖8)相比,主要區別在於,即第一個塊特定於兩種模態以捕獲特定於模態的信息,而其余塊是共享的學習模態共享特征。與[142]、[261]中廣泛使用的只有一個共享嵌入層的雙流結構相比,我們的設計捕獲了更多可共享的組件。圖R2顯示了跨模態可見紅外Re-ID的圖示。

訓練策略。在每個訓練步驟中,我們從整個數據集中隨機抽取8個身份。然后為每個身份隨機選擇4個可見圖像和4個紅外圖像。總共,每個訓練批次包含32個可見圖像和32個紅外圖像。這保證了從兩種模態中進行信息豐富的硬三元組挖掘,即,我們直接從模態內和模態間選擇硬陽性和陰性。這近似於雙向中心約束頂級損失的想法,同時處理模態間和模態內的變化。

為了公平比較,我們完全按照[142]中的設置進行圖像處理和數據增強。對於紅外圖像,我們保留原來的三個通道,就像可見的RGB圖像一樣。兩種模式的所有輸入圖像首先調整為288x144,並采用零填充隨機裁剪和隨機水平翻轉進行數據論證。兩種模態的裁剪圖像大小均為256x128。圖像歸一化完全遵循單模態設置。

訓練損失。在訓練階段,我們結合了身份分類損失(Lid)和我們提出的加權正則化三元組損失(Lwrt)。將身份損失和加權正則化三元組損失相結合的權重設置為1,與單模態設置相同。池化參數pk設置為3。為了穩定訓練,我們對兩種異構模式采用相同的身份分類器,挖掘可共享的信息。

優化器設置。我們在兩個數據集上將初始學習率設置為0.1,並在20和50個epoch分別將其衰減0.1和0.01。訓練epoch的總數為60。我們還采用了預熱學習率方案。我們采用隨機梯度下降(SGD)優化器進行優化,動量參數設置為0.9。我們在跨模態Re-ID任務上嘗試了相同的Adam優化器(用於單模態Re-ID),但由於使用大的學習率,性能遠低於SGD優化器。這是至關重要的,因為對紅外圖像采用了ImageNet初始化。

詳細比較。本節與最先進的跨模態VI-ReID方法進行比較,包括eBDTR[142]、HSME[187]、D2RL[189]、MAC[261]、MSR[262]和對齊GAN[190]。這些方法是在過去兩年中發表的。AlignGAN[190]發表於ICCV2019,通過將特征級別和像素級別的交叉模態表示與GAN生成的圖像對齊,實現了最先進的性能。兩個數據集的結果顯示在表R2和R3中。我們觀察到,所提出的AGW始終優於當前最先進的技術,而無需耗時的圖像生成過程。對於RegDB數據集上的不同查詢設置,我們提出的基線通常保持相同的性能。我們提出的基線已廣泛用於許多最近開發的方法中。我們相信我們的新基線將為提升跨模式Re-ID提供良好的指導。

D. Partial Re-ID實驗

實施細節。我們還評估了我們提出的AGW基線在兩個常用的Partial Re-ID數據集Partial-REID和Partial-iLIDS上的性能。Re-ID AGW基線模型的整體骨干結構和訓練策略與基於單模態圖像的Re-ID模型相同。Partial-REID和Partial-iLIDS數據集都只提供查詢圖像集和圖庫圖像集。因此,我們在Market-1501數據集的訓練集上訓練AGW基線模型,然后在兩個Partial Re-ID數據集的測試集上評估其性能。我們采用相同的方法來評估BagTricks[122]基線在這兩個Partial Re-ID數據集上的性能,以便更好地進行比較和分析。

詳細比較。我們將AGW基線的性能與其他最先進的Partial Re-ID方法進行了比較,包括DSR[232]、SFR[249]和VPM[67]。所有這些方法都是近年來發表的。Partial-REID和Partial-iLIDS數據集的比較結果如表R4所示。VPM[67]通過自我監督感知區域的可見性並提取區域級特征,實現了非常高的性能。僅考慮全局特征,與兩個數據集上的當前最先進技術相比,我們提出的AGW基線仍然取得了具有競爭力的結果。此外,與BagTricks[122]相比,AGW基線在多個評估指標下帶來了顯着的改進,證明了它對Partial Re-ID問題的有效性。

E. 本次調查概述

  本次調查總覽圖如圖R3 所示。根據開發行人Re-ID系統的五個步驟,我們在封閉世界和開放世界設置中進行了調查。封閉世界設置在三個不同方面進行了詳細說明:特征表示學習、深度度量學習和排名優化。然后,我們從基於圖像和視頻的角度總結數據集和SOTA。對於開放世界的人Re-ID,我們將其總結為五個方面:包括異構數據、來自原始圖像/視頻的Re-ID、不可用/有限的標簽、嘈雜的注釋和開放集的Re-ID。

  在總結之后,我們提出了對未來行人Re-ID的展望。我們設計了一個新的評估指標(mINP)來評估找到所有正確匹配項的難度。通過分析現有Re-ID方法的優勢,我們為未來的發展開發了強大的AGW基線,在四個Re-ID任務上實現了競爭性能。最后,討論了一些研究不足的未解決問題。我們的調查全面總結了不同子任務中現有的最新技術。
同時,對未來發展方向進行分析,以供進一步發展指導。

Acknowledgement.作者要感謝匿名審稿人提供寶貴的反饋意見,以提高本次調查的質量。作者還要感謝行人重新識別和其他相關領域的先驅研究人員。本作品由CAAI-HuaweiMindSpore開放基金贊助。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM