Detection in Crowded Scenes: One Proposal, Multiple Predictions


Detection in Crowded Scenes: One Proposal, Multiple Predictions

2020-04-26 13:11:43

Paperhttps://arxiv.org/abs/2003.09163 

Code: https://github.com/megvii-model/CrowdDetection

Bloghttps://mp.weixin.qq.com/s/gJuXl6Oh_N_fJgQ9jT268w 

 

1. Background and Motivation:

本文擬解決嚴重遮擋的情況,因為常規的檢測器會失效:

1). 高度重合的樣本可能會有相似的特征。所以,檢測器很難區分開這些 proposal;

2). 由於高度重合,這些proposal 會被 NMS 誤殺。

 

前人也在嘗試解決這個問題,例如:sophisticated NMS,new loss functions, re-scoring, part-based detectors。但是這些方法要么太復雜,要么不能很好地處理高度重疊的場景,或者降低了不那么重疊的情況。在本文中,我們擬提出一種新的學習機制來處理這種挑戰:對於每一個 proposal box,不是預測單個 instance,作者建議預測一組 instance,如圖 2 所示。有了這種機制,近鄰的 proposals 的預測可以被期待為 infer the same set of instances, 而不是區分 individuals,而前者是更加容易學習的 (with this scheme, the predictions of nearby proposals are expected to infer the same set of instances, rather than distinguishing individuals)。最終,作者提出 EMD LOSS 來監督這個 instance set prediction 的學習。其次,一種新的 post-processing 方法稱為,Set NMS 被引入來抑制不同 proposals 的重復情況。最后,一種可選擇的 refinement module 被設計用於處理潛在的 false positives。

2. The Proposed Method: Multi-Instance Prediction:

本文主要是受到如下觀察的啟發:如圖 2 所示,當有多個物體嚴重遮擋時,如果 one proposal 對應了任何一個物體,那么很有可能和其他物體重合了。所以,對於這樣的 proposal box,那么我們為啥要預測單個 object,而不是都預測呢?

正式的來說,對於每一個 proposal box bi,這種新的機制想要預測一組相關的 instances  G(bi) 而不是一個物體:

 

其中,g 是所有 GT Boxes 的集合。

 

Instance set prediction

對於么一個 box bi,傳統方法都會用 detection function 來預測一個 pair (ci, li) 來表示鏈接的示例,其中,ci 是分類標簽,li 是相對位置。

作者這里進行了拓展,引入了 K 個檢測函數,來產生一組預測:

其中,K 是給定的常量。

 

EMD loss

作者想設計一個損失函數 L(bi) 來最小化預測 P(bi) 和 真值示例 G(bi) 之間的差異,可以歸類為 set distance measurement。作者設計如下的 EMD LOSS 來最小化兩個集合之間的 Earth Mover's Distance:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

==


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM