2021-視頻監控中的多目標跟蹤綜述


 本文來自一篇2021的論文,論文簡要回顧了現有的SOTA模型和MOT算法、對多目標跟蹤中的深度學習進行了討論、介紹了評估方面的指標、數據集和基准結果,最后給出了結論。

 

圖片

視頻監控中的多目標跟蹤(MTT)是一項重要而富有挑戰性的任務,由於其在各個領域的潛在應用而引起了研究人員的廣泛關注。多目標跟蹤任務需要在每幀中單獨定位目標,這仍然是一個巨大的挑戰,因為目標的外觀會立即發生變化,並且會出現極端的遮擋。除此之外,多目標跟蹤框架需要執行多個任務,即目標檢測、軌跡估計、幀間關聯和重新識別。已經提出了各種方法,並做出了一些假設,以將問題約束在特定問題的上下文中。本文對利用深度學習表征能力的MTT模型進行了綜述。

多目標跟蹤分為目標檢測和跟蹤兩個主要任務。為了區分組內對象,MTT算法將唯一ID與在特定時間內保持特定於該對象的每個檢測到的對象相關聯。然后利用這些ID來生成被跟蹤對象的運動軌跡。

圖片

目標檢測的精度決定了目標跟蹤系統的有效性。MTT模型的精度受比例變化、頻繁的id切換、旋轉、光照變化等因素的影響很大。圖1顯示了MTT算法的輸出。此外,多目標跟蹤系統中存在背景雜波、后移、航跡初始化和終止等復雜任務。為了克服這些問題,研究人員利用深度神經網絡,提出了多種策略。

 

MTT算法的分類


根據對象的初始化方式,MOT實現可分為基於檢測(DBT)或無檢測跟蹤(Detection free tracking, DFT)。然而,MTT模型是圍繞基於檢測的訓練進行標准化的,其中檢測(識別幀中的對象)是作為預跟蹤步驟來檢索的。由於DBT中需要一個目標檢測器來識別目標,因此性能在很大程度上取決於檢測器的質量,因此選擇一個檢測框架是至關重要的。

 

無檢測跟蹤(DFT)

檢測器的輸出通常被用作跟蹤器的輸入,跟蹤器的輸出被提供給運動預測算法,該算法預測物體在接下來的幾秒鍾內將移動到哪里。然而,在無檢測跟蹤中,情況並非如此。基於DFT的模型要求必須在第一幀中手動初始化固定數量的對象,然后必須在隨后的幀中對這些對象進行定位

DFT是一項困難的任務,因為關於要跟蹤的對象的信息有限,而且這些信息不清楚。結果,初始邊界框僅與背景中的感興趣對象近似,並且對象的外觀可能隨着時間的推移而急劇改變。

 

在線跟蹤(Online tracking)

在線跟蹤算法,也稱為順序跟蹤,根據過去和現在的信息生成對當前幀的預測。這種類型的算法以分步方式處理幀。在一些應用中,例如自動駕駛和機器人導航,這些信息是必不可少的。

 

批次跟蹤(Batch tracking)

為了確定給定幀中的對象身份,批次跟蹤(離線跟蹤)技術使用前一幀的信息。它們經常使用全局數據,從而提高了跟蹤質量;但是,由於計算和內存的限制,並不總是能夠一次處理所有幀。

 

深度學習算法


大多數算法共有的主要步驟如下:

目標檢測(Object Detection)階段:通過分析輸入幀,使用邊界框在一系列幀中定位目標。

運動預測(Motion Prediction)階段:分析檢測以提取外觀、運動或交互特征。

親和度(Affinity)計算階段:將提取的特征用於檢測對之間的相似度/距離計算。

關聯(Association)階段:通過向對應於相同目標的檢測提供相同的ID,在關聯中利用相似性/距離度量。

 

檢測階段


檢測階段主要用的是目標檢測中的一些算法。

YOLO單卷積神經網絡在一次評價中直接從全圖中預測多個bounding boxes和類概率,在全圖上訓練並直接優化檢測性能,同時學習目標的泛化表示。然而,YOLO對邊界框預測施加了嚴格的空間約束,限制了模型可以預測的相鄰項目的數量。成群出現的小物件,如鳥類,對於此模型也同樣有問題。

faster R-CNN,一個由全深度CNN組成的單一統一對象識別網絡,提高了檢測的准確性和效率,同時減少了計算開銷。該模型集成了一種在區域方案微調之間交替的訓練方法,使得統一的、基於深度學習的目標識別系統能夠以接近實時的幀率運行,然后在保持固定目標的同時微調目標檢測。

在某些監視畫面中,遮擋是十分頻繁,以至於不可能像在人類的情況下那樣檢測對象的整個形狀。

為了解決這個問題,Khan等人提出了經過訓練僅檢測頭部位置的時間一致性模型(temporal consistency model)。同樣,一些技術也被探索到只跟蹤頭部位置,而不是整個身體形狀。

Bewley在EL29上提出了framework SORT,以利用基於CNN的檢測的力量,在MOT前景中,它在速度和准確性方面都取得了同類最好的性能,它專注於幀到幀的預測和關聯。通過將從聚合信道特征(Aggregated Channel Features, ACF)獲得的檢測替換為Faster RCNN計算的檢測,基於卡爾曼濾波器和匈牙利算法的體系結構,它變得能夠被評為性能最好的。在某些情況下,CNN在檢測步驟中被用於構建目標邊界框之外的其他目的。

對於多目標(如汽車)的跟蹤,結合魯棒檢測和二分類器的新策略,對於多車輛的魯棒和精確識別,Min提出了升級的ViBe。當ViBe算法被用來識別汽車時,CNN用它來消除假陽性。它能有效地抑制動態噪聲,並能快速去除鬼影和物體的殘留陰影。

 

運動預測(Motion Prediction)階段


深度模型用於研究諸如時間和空間注意圖或時間順序之類的MOT特征時,性能可以得到改善。一些基於端到端深度學習的模型,不僅可以提取外觀描述符的特征,還可以提取運動信息的特征。

Wang等人提出了最早在MOT管道中應用DL的方法之一。該系統充分利用了單目標跟蹤器的優點,在不影響計算能力的前提下解決了由於遮擋造成的漂移問題;為了提高提取特征,網絡采用了兩層堆疊的編碼器,然后利用支持向量機計算親和度。目標的可見性圖被學習,然后被用來推斷空間注意圖,該空間注意圖隨后被用來對特征進行加權。此外,可見性貼圖還可用於估計遮擋狀態。這就是所謂的時間注意過程。

最常用的基於CNN的方法可進一步分為:用於特征提取的經典CNN和siamese CNN。

 

經典CNN

Kim等人聲稱多假設跟蹤(Multiple Hypotheses Tracking, MHT)技術與現有的視覺跟蹤視角是兼容的。現代基於檢測的跟蹤技術的進步和用於物體外觀的高效特征表示的發展為MHT過程提供了新的可能性。他們通過整合一個正則化的最小二乘框架來改進MHT,該框架用於在線訓練每個跟蹤目標的外觀模型。

Wojke等人提出了對SORT的改進,雖然在高幀率下獲得了較好的精度和精度,但產生了相對較多的單位移位。Wojke等人通過整合外觀運動信息對其進行了改進,通過將關聯度量替換為卷積神經網絡(CNN),克服了這個問題。卷積神經網絡經過訓練,可以在大規模的行人重識別數據集中區分行人。與SORT相比,升級的跟蹤系統有效地將身份翻轉的次數從1423次減少到781次。這減少了約45%,在保持實時速度的同時實現了具有競爭力的性能。

 

Siamese CNN

Siamese CNN已經被證明在MOT中很有用,因為跟蹤階段的特征學習的目的是確定檢測和跟蹤之間的相似性。

Leal-taxe等人提出了一種兩階段匹配檢測方法的策略,為行人跟蹤中的目標關聯挑戰提供了新的視角。在這種情況下,他們將CNN的概念應用到多人跟蹤中,並提出學習兩個檢測是否屬於同一軌跡的判斷,以避免手動設計特征進行數據關聯。模型的學習框架分為兩個階段。

CNN在Siamese 結構中進行預訓練,以測量兩個大小相等的圖像區域的相似性,然后將CNN與收集到的特征進行合並以產生預測。通過將跟蹤問題描述為線性規划,並將深度特征和運動信息與梯度增強方法相結合,它們很好地解決了跟蹤問題。

 

親和度(Affinity)計算階段


雖然一些實現使用深度學習模型來立即生成親和度分數,而不需要特征之間的顯式距離度量,但仍然有其他方法通過對CNN獲得的特征應用一些距離度量來計算跟蹤和檢測之間的親和度。

米蘭等人解決了神經網絡環境中數據關聯和軌跡估計的難題。在線MOT任務中跟蹤目標的狀態估計采用由觀測預測和更新組成的遞歸貝葉斯濾波器,該模型擴展了RNN對該過程進行建模,將目標狀態、現有觀測及其對應的匹配矩陣以及存在前景作為輸入輸入到網絡中。該模型輸出目標的預測狀態和更新結果,以及判斷目標是否終止的存在概率,取得了較好的跟蹤效果。

Chen等人建議計算采樣粒子和跟蹤目標之間的親和力,而不是計算目標和探測器之間的親和力。取而代之的是,使用與被跟蹤對象不一致的檢測來創建新的軌跡並恢復丟失的對象。盡管它是一個在線監測算法,但在發表時,它能夠在MOT15上獲得最好的結果,既使用公共檢測,也使用私人檢測。

 

跟蹤/關聯階段


在一些MTT模型中已經使用深度學習來改進關聯步驟。

Ma等人在擴大Siamese跟蹤器網絡時,采用了雙向GRU來決定在何處終止跟蹤器。對於每一次檢測,網絡提取軌跡特征並將其發送到雙向GRU網絡,雙向GRU網絡的輸出在歐幾里德空間中短暫匯集以提供軌跡的整體特征。在跟蹤過程中,根據雙向GRU輸出之間的局部距離,生成子軌,然后將其拆分成小的子軌;最后,考慮到時間池全局方面的相似性,將這些子軌重新連接到長軌跡。在MOT16數據集上,此方法獲得的結果與最新SOTA水平相當。

勒恩等人提出了一種使用多個深層RL(強化學習) 智能體完成關聯任務的協同實現方案。預測網絡和決策網絡是該模型的兩個關鍵組成部分。利用最新的跟蹤軌跡,CNN被用作預測網絡,並被訓練以預測新幀中的目標運動。

 

其它方法


除了基於以上四個步驟的模型,還存在一些其它的方法。

Jiang等人利用Deep RL代理完成了bounding boxes回歸,提高了跟蹤算法的效率;采用VGG-16CNN進行外觀提取,提取的特征保存並使用目標最近10次運動的歷史記錄,然后集成網絡預測bounding boxes運動、縮放以及終止動作等多種備選結果之一。在MOT15數據集上,在幾種最先進的MOT算法上使用這種bounding boxes回歸方法,提高了2到7個絕對MoTA點,使其在公共檢測方法中名列前茅。

Xiang等人部署MetricNet進行行人跟蹤,將親和力模型與貝葉斯濾波器得到的軌跡估計相結合。利用VGG-16CNN對目標進行再識別訓練,提取特征並進行bounding boxes回歸,運動模型分為兩部分,一部分以軌跡坐標作為輸入,另一部分結合檢測框進行貝葉斯濾波,並在MOT16和MOT15上輸出目標的更新位置,該算法在在線方法中分別獲得了最好的和次佳的得分。

無模型單目標跟蹤(model free single object tacking) SOT算法的最新進展極大地推動了SOT在多目標跟蹤(MOT)中的應用,以提高恢復能力並減少對外部檢測器的依賴。另一方面,SOT算法通常被設計成將目標與其周圍環境區分開來,當目標在空間上與類似的偽像混合時,它們經常會遇到問題,就像在MOT中看到的那樣。

Chu等人提出了一種模型來解決魯棒性和消除對外部檢測器的依賴問題。他們在算法中使用了三種不同的CNN實現了一個模型。集成PafNet以區分背景和跟蹤對象。該部分對跟蹤目標進行區分,另一個集成的CNN是卷積層,它決定了跟蹤模型是否需要刷新。使用支持向量機分類器和匈牙利技術,使用非關聯檢測來從目標遮擋中恢復。該算法在MOT15和MOT16數據集上進行了測試,第一種方法產生了最好的總體結果,第二種方法產生了在線方法中最好的結果。

 

評估指標


最相關的是Classical metrics 和 CLEAR MOT metrics。

Classical metrics指出了算法可能遇到的缺陷,如多目標跟蹤(MT)軌跡、多丟失(ML)軌跡、ID切換等。

CLEAR MOT metricsMOTA(多對象跟蹤精度)和MOTP(多對象跟蹤精度)。MOTA將假陽性、假陰性和失配率合並為單個值,從而產生總體良好的跟蹤性能。盡管有一些缺陷和抱怨,但這是迄今為止使用最廣泛的評估方法。MOTP描述了使用邊界框重疊和/或距離測量來跟蹤對象的精確度。

 

基准數據集


基准數據集包括 MOTChallenger、KITTI、UADETRAC

MOTChallest數據集是目前可用的最大、最完整的行人跟蹤數據集,為訓練深度模型提供了更多的數據。MOT15是最初的MOT挑戰數據集,它的特點是視頻具有一系列屬性,模型需要更好地推廣這些屬性才能獲得好的結果。MOT16和MOT19是其他修改版本。

 

基准結果

如下為Gioele等人列出在MOT ChallengeMOT15數據集和MOT16數據集上測試的公開結果,這些數據集記錄自相應的出版物,以便對本工作中提到的方法之間的結果進行清晰的比較。

圖片

由於檢測質量對性能有影響,因此將研究結果分為基於公共檢測的模型和基於私有檢測的模型。這些方法分為兩類:在線和離線。

發布的參考文檔的年份、其操作模式、MOTA、MOTP、IDF1、主要跟蹤(MT)和主要丟失(ML)指標,以百分比表示;假陽性(FP)、假陰性(FN)、ID開關(IDS)和碎片(Frag)的絕對數;以每秒幀數(Hz)表示的算法速度。

對於每個度量,向上的箭頭(↑)表示更高的分數,而向下的箭頭(↓)表示相反的分數。在運行相同模式(批處理/在線)的模型中強調最佳性能,並且每個統計數據都以粗體突出顯示。我們只在表2和表3中列出了從本綜述中訪問的模型獲得的結果。

在現實中,使用深度學習和具有在線處理模式的模型產生了最大的結果。然而,這可能是更加重視建立在線方法的結果,這在MOT深度學習研究社區中變得越來越流行。大量的碎片化是在線方法中經常出現的問題,這在MOTA得分中沒有反映出來。當遮擋或探測丟失時,在線算法不會向前看,不會重新識別丟失的目標,也不會插入視頻中丟失的軌跡片段。

 

結論


本文對利用深度學習解決MTT問題的方法進行了簡要的探索。這項研究討論了使用深度學習來解決MTT問題的四個步驟中的每一個步驟的解決方案,使SOTA的MOT技術的總數達到n。

對MOT算法的評估,包括評估措施和來自可訪問數據集的基准結果,進行了簡要的討論。單對象跟蹤器最近受益於將深度模型引入全局圖優化算法,從而產生了高性能的在線跟蹤器;另一方面,批處理技術受益於將深度模型引入全局圖優化算法。

 

 歡迎關注公眾號 CV技術指南 ,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

 在公眾號中回復關鍵字 “技術總結”可獲取公眾號原創技術總結文章的匯總pdf。

​​

 

其它文章

統一視角理解目標檢測算法:最新進展分析與總結

圖像修復必讀的 10 篇論文  |    HOG和SIFT圖像特征提取簡述

全面理解目標檢測中的anchor    |    實例分割綜述總結綜合整理版
單階段實例分割綜述    |    小目標檢測的一些問題,思路和方案
CVPR2021 | SETR: 使用 Transformer 從序列到序列的角度重新思考語義分割

深度學習模型大小與模型推理速度的探討

目標檢測中回歸損失函數總結    |    小目標檢測常用方法總結

視頻目標檢測與圖像目標檢測的區別

Siamese network綜述    |    姿態估計綜述    |    語義分割綜述

視覺Transformer綜述    |    2021年小目標檢測最新研究綜述

CV算法工程師的一年工作經驗與感悟

視頻理解綜述:動作識別、時序動作定位、視頻Embedding

從CVPR 2021的論文看計算機視覺的現狀

ICCV2021 | MicroNet:以極低的 FLOPs 改進圖像識別

ICCV2021 | 深度理解CNN

ICCV2021 | 重新思考視覺transformers的空間維度

CVPR2021 | TransCenter: transformer用於多目標跟蹤算法

CVPR2021 | 開放世界的目標檢測

CVPR2021 | TimeSformer-視頻理解的時空注意模型

CVPR2021 | 一個高效的金字塔切分注意力模塊PSA

CVPR2021 | 特征金字塔的新方式YOLOF

經典論文系列 | 膠囊網絡:新的深度學習網絡

經典論文系列 | 重新思考在ImageNet上的預訓練

經典論文系列 | Group Normalization & BN的缺陷

經典論文系列 | 目標檢測--CornerNet  & 又名 anchor boxes的缺陷

經典論文系列 | 縮小Anchor-based和Anchor-free檢測之間差距的方法:自適應訓練樣本選擇


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM