擁擠場景中的目標檢測


擁擠場景中的目標檢測

Detection in Crowded Scenes: One Proposal, Multiple Predictions

論文鏈接:

https://arxiv.org/abs/2003.09163

code鏈接:

https://github.com/megvii-model/CrowdDetection

摘要

本文提出了一種簡單而有效的基於提議的目標檢測器,旨在檢測擁擠場景中高度重疊的實例。本文方法的關鍵是讓每個方案預測一組相關實例,而不是以前基於方案的框架中的單個實例。該探測器采用EMD損耗、設置NMS等新技術,有效地解決了高重疊度目標的檢測難題。在FPN-Res50基線上,本文的檢測器在挑戰性的眾人類數據集上可以獲得4.9%的AP增益和AP增益對CityPersons數據集的改進,沒有鍾聲和哨聲。此外,對於像COCO這樣的不太擁擠的數據集,本文的方法仍然可以獲得適度的改進,這表明所提出的方法對擁擠是魯棒的。

1.       Introduction

本文介紹了一種新的方案來解決這一難題:對於每個方案框,本文建議預測一組可能高度重疊的實例,而不是像通常那樣預測單個實例,如圖2所示。利用這個方案,鄰近方案的預測預計將推斷相同的實例集,而不是區分個體,這很容易學習。本文還介紹了新方案中的一些技術。首先,提出了一種EMD損失來監督實例集預測的學習。其次,提出了一種新的后處理方法Set-NMS來抑制不同方案中的重復,以克服擁擠場景中不支持NMS的缺點。最后,一個可選的增強模塊(RM)被設計用來處理潛在的誤報。

 

 

 

 2.       Background

如引言所述,基於建議的對象檢測器的范例主要包括兩個步驟:第一步是建議框生成,可以通過選擇性搜索[12,11]、預先確定/可學習的錨[29,28,24,21,41,39,45]或區域建議網絡(RPN)[29,20,13,4,2]來實現。第二步是實例預測,即預測對應於每個方案框的重新確定的檢測結果。本文主要關注本文的第二步。例如預測,當前最先進的對象檢測框架[29、20、21、24、28]通常在每個建議框上附加一個檢測函數,用於確定建議是否與某個基本真實實例相關聯;如果為真,進一步預測對象的相應類標簽和重新定義的邊界框。這個機制意味着每個提案框對應於單個基本事實(通常是與提案框相對應的最大值)。因此,建議框必須過度完成,以確保每個實例都有機會被檢測到,這會給預測引入許多重復項。因此,非最大抑制(NMS)等重復消除方法對於那些框架過濾出重復結果是必要的。盡管上述范式似乎在一些基准上取得了出色的結果,如COCO[22]和PASCAL VOC[8]。由於后處理方法(如NMS),它在擁擠的場景中會丟失檢測。圖1(a)示出了一個示例:虛線框中的人被附近的框錯誤地抑制。

3.       Multiple Instance Prediction

本文的方法是由觀察結果驅動的:假設有多個對象彼此嚴重重疊,如圖2所示;如果一個方案對應於任何一個對象,則很可能重疊所有其他對象。所以,對於這樣一個提案框,與其預測一個對象,不如預測所有對象?在形式上,對於每個方案框bi,新方案建議預測相關的一組基本事實實例G(bi),而不是單個對象:     

       

其中,G是所有地面真值框的集合,θ是給定的並(IoU)比相交閾值。圖2(b)將概念可視化。與以往的單實例預測框架相比,本文的新方案可以大大簡化擁擠場景下的學習。如圖2(b)所示,所有三個建議框都被分配給同一組基本事實實例,這是一種可行的行為,因為三個建議實際上具有幾乎相同的特征。而對於先前的單實例預測范式(圖2(a)),每一個預測都會產生不同的預測,這在本質上可能是困難的。

在本文的方法中,每一個建議都會生成一組實例,而不是一個單獨的實例,由於生成了更多的預測,這可能會導致誤報的增加。雖然在本文的真實圖像實驗中很少觀察到故障情況,但本文引入了一個可選的故障模塊,以防出現風險,如圖3(b)所示。該模塊只需將預測作為輸入,並將其與建議功能相結合,然后執行第二輪預測。本文希望固件模塊能夠糾正可能的錯誤預測。

 

 4.       Experiment

1列出了每個數據集的“實例密度”。因為本文提出的方法主要是為了改進擁擠檢測。因此,本文在CrowdHuman上執行大多數比較和消融。注意,在像COCO這樣的非擁擠數據集上的實驗是為了驗證本文的方法是否對孤立對象檢測有害,而不是為了顯著的性能改進。

2顯示了第3節中所述方法的融合實驗,包括EMD損失的多實例預測、設置NMS和增強模塊。基線是FPN[20],使用NMS(IoU閾值為0.5)進行后處理。很明顯,本文的方法在所有標准中都不斷改進性能。

在圖1中,由於NMS錯誤地抑制了一些實例,一種可能的假設是,可以通過使用不同的NMS策略來改進預測。表3探討了一些變體。對於純粹的NMS,與默認設置(0.5)相比,稍微增大IoU閾值(從0.5到0.6)可能有助於調用更多實例,因此AP增加。

4還比較了最近的工作AdaptiveNMS[23],這是一種用於擁擠檢測的增強的NMS策略。在[23]中,報告了基於FPN的眾人類結果。值得注意的是,由於基線翻新,本文無法與本文的結果進行直接比較。從數據來看,本文發現本文的方法可以在更強的基線(尤其是AP)上實現顯著的改進,此外,管道也簡單得多。表4還評估了本文在級聯R-CNN[2]框架上的方法。在級聯R-CNN的最后階段加入EMD損耗,並設置NMS。研究結果表明,本文的方法仍然可以顯著提高級聯R-CNN在擁擠數據集(如crowdhman)上的性能。

為了進一步了解本文的方法對擁擠對象的有效性,本文分別比較了擁擠和非擁擠情況下不同方法的召回率。結果如表5所示。請注意,召回與信任分數閾值有關。為了公平比較,本文分別使用與每個條目的最佳JI索引對應的閾值。從表中本文發現,對於FPN基線/軟NMS,擁擠對象的召回率遠低於非擁擠對象,這意味着擁擠檢測的困難。相比之下,本文的方法大大提高了擁擠實例的召回率(從54.4%提高到63.3%,提高了8.9%),另外,非擁擠實例的召回率也略有提高。

7分別將本文的方法與具有原始NMS和軟NMS的FPN基線進行了比較。本文的方法使AP和MR-2分別比NMS基線提高了0.9%和1.0%,表明了本文的方法的有效性。表7還列出了CityPersons的一些其他最新結果。盡管由於不同的超參數設置,直接比較可能不公平,但至少它意味着本文的方法在相對較強的基線上獲得了顯著的收益。

6進一步分析了不同方法的召回情況。與CrowdHuman(見表6)中的方法類似,本文的方法主要顯著提高了對擁擠對象的召回率——在驗證集中的108個實例中,從64個增加到96個。通過比較進一步說明本文的方法對於再次處理擁擠場景是非常有效的。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 5.       Conclusion

在本文中,本文提出了一個非常簡單而有效的基於建議的目標檢測器,專門為擁擠的實例檢測而設計。該方法利用多實例預測的概念,引入了EMD損失、SetNMS和re-fiment模塊等新技術。本文的方法不僅有效,而且靈活,可以與大多數最先進的基於提議的檢測框架進行合作;此外,還可以很好地推廣到不太擁擠的場景。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM