Abstract MTMCT:從多個攝像頭采集的視頻中跟蹤多個人。 Re-id:從一系列圖片中檢索與一張被查詢圖片相似的圖片。 我們用CNN為MTMCT和Reid學習好的特征。 貢獻包括: ①為訓練設計的一個自適應權重的三重損失 ②一種新的艱難身份挖掘技術 我們測驗了好的re-id和好的MTMCT分數之間的相關性,並且做了消融研究,以闡明系統主要成分的貢獻。
1.Introduction
MTMCT目標:給定多個攝像頭采集的視頻,在所有視頻幀中決定每個人的位置。 MTMCT是有難度的:為減少成本,攝像頭分布較遠,並且視野域不總是重疊的。所以挑戰有:遮擋,視角變化,光照變化,行人數量提前未知,要處理的數據量巨大,等等。 Re-id:與MTMCT密切相關。給定一張查詢圖片,re-id的系統將會從一系列其他人的快照數據庫中檢索圖片(不同攝像頭,不連續幀),然后根據與被查詢圖片的相似度,降序排列。在數據庫中,與被查詢圖片身份相同的圖片將排在前面。 二者的區別: ①任務不同 Re-id排列對於一張查詢圖片的距離。(相似度) MTMCT把圖像對分成相同身份或者不同身份。 ②metric不同 Reid:排列性能 MTMCT:分類錯誤率 這似乎表明外觀特征要從不同的loss中學習。Ideally, reid的loss應當確保:對於任意一張(any query)查詢圖片a來說,圖片a與身份相同的特征之間的最大距離要小於圖片a與與之身份不同的特征之間的最小距離。這可以確保,對於任意給定的查詢圖片,可以得到正確的特征排列。 MTMCT的loss應當確保:任意兩個(any two)身份相同的特征之間的最大距離要小於任意2個不同身份的特征之間的最小距離。這樣在同一種身份和不同種身份的距離之間就有一個間隔margin。 So, 0-MTMCT loss意味着0-reid loss。 但是,用MTMCT的loss進行訓練代價很高,因為要求用所有的特征對作為輸入。此外,相同身份對的數量和不同身份對的數量(超級多)很不平衡。 在本文中,采用了一種Reid類型的三重損失函數,訓練過程基於難例挖掘,並且獲得了高性能的特征。實驗也展示出在適度擁擠的情況下跟蹤時,將reid rank的准確度提高,超過一定點時,會使得MTMCT的收益遞減。(起反作用了唄) 為了把特征用於MTMCT,提出了一個pipeline。
pipeline流程: 給定視頻流,用行人檢測器從視頻中提取Bbox。為進行軌跡推斷,特征提取器要從觀測中提取運動特征和外觀特征。這些特征將被輪流轉換成相關性,並且會用相關聚類優化的方式打上標簽。最后做一些后處理的工作:對漏檢插值和去除低置信度的軌跡。多階段推理為軌跡片段、單攝像頭和多攝像頭軌跡,重復進行了軌跡推理的過程。 在訓練時,檢測器被單獨訓練。特征損失會懲罰那些產生錯誤相關的特征。 在測試時,采用了一種基於相關聚類的數據關聯算法,將觀測分到不同的身份組。為降低計算復雜性,在跟蹤器中采用了標准的分層推理和滑動時間窗口的技術。 當訓練時,並沒有包含相關聚類。而是假設:高質量的外觀特征可以產生好的聚類結果,只訓練這些特征就行了。實驗結果也證明了這一假設。 Contributions: ①提出一種自適應權重的三重損失,准確且穩定,這點與固定權重的變量不同。 ②提出一種代價不高的艱難身份挖掘模式,可以幫助學到更好的特征。 ③關於tracking和ranking的准確度之間的關系,提出新的見解 ④我們的特征在MTMCT和reid任務上產生了極好的結果。
2.Related work
這里只總結本文所用的。 Person detection: OpenPose Data association: 為了公式的簡化和准確性,本文犧牲了計算成本,選擇相關性聚類來進行數據關聯。這個公式考慮到了所有成對項的情況,並且聯合優化身份。一種與之等價的公式就是圖多割,最小化分歧,而不是最大化一致性。 Appearance: 當前reid,好的效果往往依賴於深度學習,難例挖掘,數據增強,特殊的loss函數等。本文采用殘差網絡,采用類似的技術,為MTMCT和Reid學習到了好的特征。 Multiple Cameras: 本文采取時間約束的方法,排除不可能的攝像頭之間的關聯。隨着觀測物之間時間距離的增大,可把相關性衰減到0。相關性衰減保證了如果有一系列正相關的觀測形成觀測鏈的話,具有一定時間距離的觀測可被關聯。 Learning to Track: 本文,為相關性學習特征的時候,無需通過聯合優化的方式測量軌跡質量。學習好的相關性會使得訓練更加簡單,代價也沒那么高,對於MTMCT而言,可以實現極好的效果。
3.Method
Input:從n個不同攝像頭中獲得的一系列視頻 Ground-truth:一系列多個攝像頭的軌跡 MTMCT可以看作是一個有監督的學習問題,尋找最優的參數以盡可能的估計真實的軌跡。 然而,端到端的訓練要求通過一個可以進行數據關聯的聯合優化層反向傳播loss,不過,這個過程代價蠻高的。本文避免這種復雜性。方法是對於同一身份的樣本對標注相關性為正,對於不同身份的樣本對把相關性標注為負。然后,組合的優化就變得微不足道了。 我們的目的是在訓練的過程中學習那些可以產生好的相關性的特征。之后再用相關性聚類的方法進行數據關聯。在測試時,我們使用相關性聚類的方法最大化潛在錯誤相關性之間的一致性。 下面講述如何學習外觀特征和跟蹤器的不同部分。
3.1 Learning appearance features
給定一個帶有標簽的行人快照的大集合,我們用an adaptive weighted triplet loss來學習外觀特征。對於一個樣本,正樣本集,負樣本集。重寫triplet loss:
這里,m是給定的行人之間的分離間隔,d代表了外觀距離。[.]+=max(0,.)。 這個公式的好處: ①通過用所有的樣本,避免了三元組產生的組合過程。這樣學習好的特征的關鍵就在於分配更大的權重給艱難的正樣本和負樣本。 ②正類和負類的不平衡性通過在權重分布中反映出來,就可以很容易的得到控制。 有一種用難例挖掘的方法建立起來的batch-hard triplet loss。這個損失只考慮了最艱難的正樣本和負樣本。那么對於公式2而言,這種batch-hard triplet loss的權重設計為: 這是二值的,滿足條件為1,否則為0。 這種loss比傳統的擁有統一權重的triplet loss結果要好。但是擁有統一權重的loss對離群點更加魯棒,因為它們影響不了權重。 那么,我們希望定義一種權重,讓L3像效果不錯的batch-hard loss一樣收斂的同時,也能對離群點保持魯棒性。對此,有2點改進。 ①改進權重,使之能夠實現高准確度,與此同時,訓練也穩定。對每個anchor而言,公式3和公式4把全部的權重分配給最艱難的正樣本和負樣本,這樣的話,忽視了其他的正樣本和負樣本。 而我們的做法是用softmax分配自適應的權重,小化權重的分布。
這種自適應權重,對於簡單的樣本給很少的importance,而比較重視最艱難的樣本。當在一個batch中出現一些艱難的樣本時,這些樣本對於權重將會有公正的分享。這點不同於公式3和4,只把重要性分配給單個最重要的樣本。 自適應權重是很有用的,當一個batch中最艱難的樣本是一個離群點時,還可以從其他艱難樣本中學習。實驗也證明了自適應權重的有利屬性。 對於訓練過程中的batch構建,我們采用PK batches的思想。在每一個batch中,對於P個身份實體的每一個實體而言,有K個樣本圖片。這個方法在基於相似度的ranking上展示了非常好的性能,避免產生一個三元組的組合數。 在一個training epoch中,每個實體在他的batch中被輪流選擇,剩余P-1個實體被隨機采樣。對於每個實體而言,K個樣本也被隨機選擇。 ②改進了選擇艱難實體的過程 隨着訓練集大小的增加,隨機采樣P-1個實體很難捕捉到最艱難的負樣本,因此會降低batch的難度。這種影響在訓練的后幾輪迭代中會被觀察到,在一個batch中,很多triplets展示出了0損失。 為了增加發現艱難負樣本的幾率,我們構建了兩個集合從中進行采樣。例子如下:
艱難樣本池是在給定anchor的情況下,有H個最艱難的身份實體構成。 隨機樣本池是由剩余的實體構成。 然后,在一個大小為PK的batch中,給定an anchor identity,從艱難樣本池或者隨機樣本池等概率的采剩余的P-1個樣本。 這種技術采艱難負樣本會更加頻繁。這個池子可以從在網絡訓練了幾輪之后構建出來,也可以從預先訓練的網絡中計算出來。
3.2 MTMC Tracker
這部分說了跟蹤器的不同模塊。 在我們的設計中,跟蹤器首先為所有的檢測輸入計算特征,然后,估計所有特征對之間的相關性,最后,解決一個相關性聚類的問題,以把身份分配給觀測(數據關聯)。此外,有兩個后處理的過程:插值和剪枝。對漏檢進行插值,去除低置信度的軌跡。 Detector: OpenPose檢測器 這個檢測器學習部件親和域,以捕獲身體部件之間的關系,並且運用貪心分析法把部件親和域聯合起來,形成bbox。在訓練期間,是在部件親和域上進行監督的,而不是在bbox的准確度上進行監督。 Appearance feature 我們使用Resnet50模型,在pool5層后面接了一個帶有1024個單元的dense layer,BN和Relu。另一個dence layer產生了128維的外觀特征。用the adaptive weighted triplet loss,數據增強,艱難身份挖掘的方法訓練模型。 定義兩個檢測之間的外觀相關性為 . 閾值對所有訓練對的正樣本的距離和負樣本的距離取均值。 數據增強 對訓練圖片在線裁剪和水平翻轉等。此外還有一些其他技術,如,為模仿遮擋隱藏小的矩形圖像塊。 Motion correlation 我們使用一個線性運動模型來預測運動相關性。因為前向-反向預測誤差是非負的,我們從訓練集中使用這些軌跡,目的是學習能夠把正負例分開的閾值,和一個能夠把錯誤轉換成相關性的尺度因子。運動相關性:。對於不可能的關聯,相關性為負無窮。 Optimization 在優化的時候,有一個矩陣收集外觀相關性和運動相關性。,可以隨着觀測間隔時間距離的增大,把相關性衰減到0。確保具有一定時間間隔的軌跡進行關聯,關聯鏈中觀測呈正相關。所選參數要在小的訓練集合上最大化跟蹤的准確性。 通過相關性聚類建立目標的同一身份。給定一個帶權值的圖,如果,那么兩個節點和就是同一個目標。 相關性聚類定義如下:
公式6最大化聚類之間的正相關或負相關。 公式7的約束確保解具有傳遞性。 Multi-Level reasoning 通過在3個層次上進行分層推理,降低了計算負擔。 第一層:計算one-second long tracklets。 第二層:把tracklets關聯成單攝像頭的長軌跡。 第三層:把單攝像頭的長軌跡關聯成多攝像頭軌跡。 Tracklets特點:不相交,one-second long windows. Trajectory:在一個滑動時間窗口中在線計算。 所有的trajectories在這個窗口中至少有一個檢測可以被用作數據關聯。 為單攝像頭軌跡設置窗口寬度是10秒,為多攝像頭軌跡設置窗口寬度是1.5分鍾。
4.Experiments
4.1 Benchmarks
DukeMTMC 大尺度的跟蹤數據集,在2.8k個身份實體上提取特征,有1.8k屬於訓練/測試集。 8個攝像頭。每個攝像頭視頻長度是1 小時25分鍾。在25分鍾長度的test-easy序列和15分鍾長度的test-hard序列上測試方法。Test-hard序列的特征是有4個攝像頭,一組由50個人。用17分鍾長度的驗證序列做消融實驗。 DukeMTMC-reID 有1404個身份實體在多於2個攝像頭中出現,只有408個實體只出現在了一個攝像頭中,(可看作是干擾物)。702個身份實體用於訓練,702個用於測試。 Market-1501 1501 Identities 6個攝像頭 用DPM檢測器提取了32668個bbox。這個數據集很有挑戰性,因為Bbox常常被誤分配,視點也顯著不同。751:training 750:testing
4.2 Evaluation
IDF1是MTMCT的主要指標。 單攝像頭評估:MOTA,不足以報告多攝像頭的error,因此只在單攝像頭中使用。 對於re-id:rank accuracy + mAP
4.3 Model Training
為了訓練,設置了P=18,K=4,m=1,分辨率resolution:256*128。前15000次迭代,學習率為xx,在迭代為25000時,學習率衰減為xx。在實驗中,使用艱難身份挖掘技術,在迭代5000次時,一旦獲得了特征,我們就構建the hard and random pools。然后,從這些pools中采樣身份實體,直至最后迭代結束。這個hard identity pool的大小是H,並且發現相似的分數可以用30-100個實體獲得。H為1,包含1個hard identity可能是an outlier。一個大的HN池接近於隨機抽樣。
5.Results
這里: 主要討論了MTMCT的結果,在IDF1 score和身份召回率IDR上均表現很好。 研究了不同成分的影響,分析了常見的跟蹤失敗情況。 在reid上,所學的外觀特征取得了很好的結果。
5.1 Impact of learning
評估了檢測器和特征選擇是如何在DukeMTMC 驗證集上是如何影響多攝像頭IDF1指標的。結果如下:
Baseline:BIPCC。檢測器和特征對於性能的提升都很重要。
5.2 MTMC tracking
全部結果:
我們的方法提升的點蠻多的。多/單攝像頭,IDF1,MOTA。Outperform all methods on IDF1 and MOTA。
5.3 Impact of loss and hard negative mining
Reid 展示的是基於相似度的ranking。
①自適應權重三重損失相較於batch-hard loss有所提升。 ②當用平方歐氏距離訓練的時候,我們的loss在所有的場景中,對於離群點而言是魯棒的。而batch-hard loss在duke 數據集上展示出了不穩定性。 ③所提的艱難身份挖掘模式是有用的。使用不同的batches,我們自適應權重的loss是既准確又穩定的。
5.4 accuracy of tracking vs. Ranking
因為越來越多的reid方法被用於MOT中,所以研究了ID測量和rank測量的關系。 在試驗中,把真實的單攝像頭軌跡給凍結,在訓練時,使用不同時段的特征進行跨攝像頭跟蹤,導致了不同層次的排列准確度。 外觀特征的訓練使用了461個DukeMTMC-Reid樣本。 跟蹤的准確度在241個DukeMTMC驗證序列上進行評估 Rank-1准確度在702個IDS的DukeMTMC-reid測試集和DukeMTMC 驗證集上進行評估。 對於DukeMTMC-reID 測試集和DukeMTMC驗證集而言,Rank-1 准確度是相關的。 具有中等rank-1性能的特征,在MTMCT任務中仍然可以表現良好。因為要比較的身份比較有限和多樣化。此外,跟蹤還有運動信息的幫助, MTMCT IDF1的性能隨着rank1准確率的提升而有所提升。然而,達到一點后,進一步提升特征rank-1 准確率將會導致IDF1的收益遞減。 過程如下: 開始時,reid模型學着分離正樣本和負樣本,跟蹤性能隨着rank-1性能的提升而線性增加。 一旦足夠的相關性具有正確的符號,相關性聚類就可以通過強制執行傳遞性的方式來推斷其余情況。因此,糾正剩余相關的符號對IDF1的影響較小。(即使在那個點之后,reid模型也會進一步將相同身份的樣本和不同身份的樣本分開。這些改變不影響相關性的符號,對IDF1影響很小) 窗體底端
5.5 weakness analysis
因為單攝像頭和多攝像頭的ID映射不同,所以需要單獨分析。 在單攝像頭跟蹤中,當發生顯著的姿態變化,顯著遮擋,突然運動的時候,相關性會很弱,所以會導致低的IDR。 在多攝像頭跟蹤中,碎片(軌跡片段)主要是由於盲點延遲和不可預計的運動造成的。 窗體底端 具有相似外觀,外觀和運動相關是很弱的,導致了在跟蹤時的低的身份召回率IDR。
6.Conclusion
①A new triplet loss with real-valued adaptive weights
A new hard-identity mining technique(that mixes difficult and random identities) = Appearance features(MTMCT & Re-id,考慮的指標有IDF1,MOTA,rank-1 scores)
②闡明了rank-1 re-id score的變化與IDF1跟蹤准確度變化之間的關系。這兩種性能的測量剛開始時是線性相關的,但是這種依賴會趨於飽和,一旦rank-1 score足夠好,以致於可以產生與正確標志相關的數據關聯。
解讀二:
1.本文的主要貢獻
1、提出一種自適應的Triplet loss方法,與固定權重的方法相比,在准確率和效率方面均有提升. 2、提出一種可以更好的提取特征的難例挖掘方法 3、關於tracking和ranking的准確度之間的關系,提出新的見解 4、在現有數據集上分別檢測MTMCT和Re-ID的有關性能
2. 多目標多相機追蹤(MTMCT)和行人再識別(Re-ID)的關系
2.1 兩者的區別
MTMCT是在來自多個相機的視頻中追蹤多個行人,在人群分析,運動員姿勢識別等領域均有非常廣泛的應用,它比較的是分類性能。而Re-Id是從一個圖片庫里檢索出與查詢圖片相似的任務,給出一個相似程度的排序,比較的是排列性能。
2.2 兩者的聯系
對於MTMCT的loss而言,任何兩個身份相同特征之間的最大距離都要小於任何兩個不同的特征之間的最小距離,在同一種身份和不同種身份的距離就稱為間隔margin。
對於Re-ID的loss而言,對於任意一張查詢圖片a,圖片a與身份相同的特征之間的最大距離要小於圖片a與身份不同的特征之間的最小距離。因此,對於任意給定的查詢圖片,我們可以得到正確的特征排列。
因此, 由0-MTMCT loss我們可以得到0-reid loss,但是反之不成立。
2.3 模型的流程
為了實現MTMCT的相關性能,文章設計了下列流程。
對於給定的視頻流(video streams),首先用行人檢測器對視頻進行處理,從中提取相應的邊界框Bbox。為了進行軌跡推斷,特征提取器要從觀測中提取運動特征和外觀特征。將這些特征將轉換成相關性並用相關聚類優化的方式打上標簽。最后做一些后處理的工作:對缺失值進行插值處理,去除低置信度的軌跡。
3. 論文結論
我們使用了一個實值,自適應權重的triplet損失,聯合能夠混合困難和隨機個體的新的困難個體挖掘技術,獲得了外觀特征。無論是使用IDF1,MOTA或者rank1分數衡量在MTMCT和Re-ID上都達到了最先進的表現。
我們的實驗也說明了Re-ID的rank-1分數改變與追蹤准確率的IDF1准確率改變之間的關系。這兩種表現度量一開始就是線性相關的,但是一旦rank-1分數一旦足夠好就會產生產生對於正確信號的關聯,這種依賴就會飽和。
我們期待能夠引進新的大規模數據集來進一步驗證我們的想法。
來源:CVPR 2018(應該是來自知乎的某個大佬寫的,侵刪)