2020最佳檢測 | 帶有注意力RPN和多關系檢測器的小樣本目標檢測網絡(提供源碼和數據及下載)


2020最佳檢測 | 帶有注意力RPN和多關系檢測器的小樣本目標檢測網絡(提供源碼和數據及下載)

Edison_G 計算機視覺研究院 前天

點擊藍字關注我們


computerVision

計算機視覺研究院

圖片


● 關注我們,回復:最佳檢測 ●獲取源碼和數據集下載鏈接

1

概 要

 

傳統的目標檢測方法通常需要大量的訓練數據,並且准備這樣高質量的訓練數據是勞動密集型的(工作)。在本文中,我們提出了少量樣本的目標檢測網絡,目的是檢測只有幾個訓練實例的未見過的類別對象。我們的方法的核心是注意力RPN和多關系模塊,充分利用少量訓練樣本和測試集之間的相似度來檢測新對象,同時抑制背景中的錯誤檢測。為了訓練我們的網絡,我們已經准備了一個新的數據集,它包含1000類具有高質量注釋的不同對象。據我們所知,這也是第一個數據集專門設計用於少樣本目標檢測。一旦我們的網絡被訓練,我們可以應用對象檢測為未見過的類,而無需進一步的訓練或微調。我們的方法是通用的,並且具有廣泛的應用范圍。我們證明了我們的方法在不同的數據集上的定性和定量的有效性。

解決的問題

少量support的情況,檢測全部的屬於target目標范疇的前景。

 

2

背景

 

現有的物體檢測方法通常嚴重依賴大量的注釋數據,並且需要很長的訓練時間。這激發了少量樣本物體檢測的最新發展。鑒於現實世界中物體的光照,形狀,紋理等變化很大,少量樣本學習會遇到挑戰。盡管已經取得了重要的研究和進展,但是所有這些方法都將重點放在圖像分類上,而很少涉及到很少檢測到物體的問題,這很可能是因為轉移從少樣本分類到少樣本目標檢測是一項艱巨的任務。

僅有少數樣本的目標檢測的中心是如何在雜亂的背景中定位看不見的對象,從長遠來看,這是新穎類別中一些帶注釋的示例中對象定位的一個普遍問題。潛在的邊界框很容易錯過看不見的物體,否則可能會在后台產生許多錯誤的檢測結果。我們認為,這是由於區域提議網絡(RPN)輸出的良好邊界框得分不當而導致難以檢測到新物體。這使得少樣本目標檢測本質上不同於少樣本分類。另一方面,最近用於少樣本物體檢測的工作都需要微調,因此不能直接應用於新穎類別。

在今天分享的文章中,作者解決了少樣本目標檢測的問題:給定一些新穎目標對象的支持圖像,我們的目標是檢測測試集中屬於目標對象類別的所有前景對象,如下圖所示。

圖片

3

FSOD: A Highly-Diverse Few-Shot Object Detection Dataset

 

進行少量學習的關鍵在於,當新穎的類別出現時,相關模型的泛化能力。因此,具有大量對象類別的高多樣性數據集對於訓練可以檢測到看不見的對象的通用模型以及執行令人信服的評估是必要的。但是,現有的數據集包含的類別非常有限,並且不是在一次性評估設置中設計的。因此,我們建立了一個新的少樣本物體檢測數據集。我們從現有的大規模對象檢測數據集構建數據集以進行監督學習。但是,由於以下原因,這些數據集無法直接使用:
  • 不同數據集的標簽系統是在某些具有相同語義的對象用不同的詞注釋的地方不一致;
  • 由於標簽不正確和缺失,重復的框,對象太大,現有注釋的很大一部分是嘈雜的;
  • 他們的訓練/測試組包含相同的類別,而對於少樣本設置,我們希望訓練/測試組包含不同的類別,以評估其在看不見的類別上的普遍性。
為了開始構建數據集,首先從中總結標簽系統。我們將葉子標簽合並到其原始標簽樹中,方法是將相同語義(例如,冰熊和北極熊)的葉子標簽歸為一類,並刪除不屬於任何葉子類別的語義。然后,我們刪除標簽質量差的圖像和帶有不合適尺寸的盒子的圖像。具體而言,刪除的圖像的框小於圖像尺寸的0.05%,通常框的視覺質量較差,不適合用作支持示例。接下來,我們遵循幾次學習設置,將我們的數據分為訓練集和測試集,而沒有重疊的類別。如果研究人員更喜歡預訓練階段,我們將在MS COCO數據集中按類別構建訓練集。然后,我們通過選擇現有訓練類別中距離最大的類別來划分包含200個類別的測試集,其中距離是連接is-a分類法中兩個短語的含義的最短路徑。其余類別將合並到總共包含800個類別的訓練集中。總而言之,我們構建了一個包含1000個類別的數據集,其中明確地划分了類別用於訓練和測試,其中531個類別來自ImageNet數據集,而469來自開放圖像數據集。

數據集分析

數據集是專為幾次學習和評估新穎類別模型的通用性而設計的,該模型包含1000個類別,分別用於訓練和測試集的800/200分割,總共約66,000張圖像和182,000個邊界框。下表和下圖顯示了詳細的統計信息。我們的數據集具有以下屬性。

圖片

圖片

圖片

類別高度多樣性

包含了83中父類語義,例如哺乳動物,衣服,武器等,這些語義進一步細分為1000個葉子類別。我們的標簽樹如上圖所示。由於嚴格的數據集划分,我們的訓練/測試集包含了非常不同的語義類別的圖像,因此給要評估的模型帶來了挑戰。

4

新方法框架

 

圖片

在RPN前加一個attention,在檢測器之前加了3個attention,然后還是用到了負support訓練。具體來說,我們構建了一個由多個分支組成的權重共享框架,其中一個分支用於查詢集,另一個分支用於支持集(為簡單起見,我們在圖中僅顯示了一個支持分支)。權重共享框架的查詢分支是Faster R-CNN網絡,其中包含RPN和檢測器。我們利用此框架來訓練支持和查詢功能之間的匹配關系,使網絡學習相同類別之間的常識。在該框架的基礎上,我們引入了一種新穎的注意力RPN和具有多關系模塊的檢測器,用於在支持框和查詢框之間產生准確的查詢解析。

Attention-Based Region Proposal Network

圖片

沒有support,RPN就沒有目標,后面的子分類就搞不清楚這么多的不相關目標。使用support信息就能過濾掉大部分的背景框,還有那些不是匹配的類別。通過在RPN中用attention機制來引入support信息,來對其他類的proposal進行壓制。通過逐深度的方法計算二者特征值的相似性,相似性用來生成proposal。相似度定義如下:

圖片

其中GGG是attention特征圖,X作為一個卷積核在query的特征圖上滑動,以一種逐深度(取平均)的方式。使用的是RPN的底部特征,ResNet50的res4-6,發現設置S=1表現很好,這說明全局特征能提供一個好的先驗G用3×3的卷積處理,然后接分類和回歸層。

Multi-Relation Detector

圖片

不同的關系模塊建模查詢和支持圖像之間的不同關系。全局關系模塊使用全局表示來匹配圖像;局部關系模塊捕獲像素到像素的匹配關系;補丁關系模塊對一對多像素關系進行建模。該檢測器包括三個注意模塊,分別是要學習的全局關系模塊在深度嵌入的全局匹配中,局部相關模塊學習支持和查詢建議之間的像素級和深度互相關,而補丁關系模塊則學習深度非線性度量以用於補丁匹配。我們通過實驗證明,三個匹配的模塊可以相互補充以產生更高的性能。需要哪些關系模塊?我們遵循RepMet中提出的Kway N-shot評估協議來評估我們的關系模塊和其他組件。表2顯示了我們在FSOD數據集的簡單1-way 1-shot訓練策略和5-way 5-shot評估下對我們提出的多關系檢測器的模型簡化測試。此后,我們對FSOD數據集上的所有模型簡化測試使用相同的評估設置。對於單個模塊,本地關系模塊在AP50和AP75評估中均表現最佳。出人意料的是,盡管補丁關系模塊對圖像之間更復雜的關系進行建模,但其性能比其他關系模塊差。我們認為,復雜的關系模塊使模型難以學習。當組合任何兩種類型的關系模塊時,我們獲得的性能要優於單個關系模塊。通過組合所有的關系模塊,我們獲得了完整的多重關系檢測器,並獲得了最佳性能,表明三個提出的關系模塊相互補充,可以更好地區分目標與不匹配的對象。因此,以下所有實驗均采用完整的多關系檢測器。

Two-way Contrastive Training Strategy

 

圖片

2次對比訓練三聯體和不同的匹配結果。在查詢圖像中,只有正支持與目標基本事實具有相同的類別。匹配對包括正面支持和前景建議,非匹配對具有三類:(1)正面支持和背景建議;(2)負面支持和前景建議;(3)負面支持和負面建議。選擇訓練策略:

圖片

哪個RPN更好?

我們根據不同的評估指標評估注意力RPN。為了評估提案質量,我們首先評估常規RPN和建議的RPN超過0.5 IoU閾值的前100個提案的召回率。我們關注的RPN具有比常規RPN更好的召回性能(0.9130對0.8804)。然后,我們針對這兩個RPN評估整個ground truth框的平均最佳重疊率(ABO)。注意RPN的ABO為0.7282,而常規RPN的相同度量為0.7127。這些結果表明,關注RPN可以生成更多高質量的建議。上表進一步比較了在不同訓練策略下具有注意力RPN的模型和具有常規RPN的模型。在AP50和AP75評估中,注意力RPN的模型始終表現出比常規RPN更好的性能。在AP50 / AP75評估中,注意力RPN在1-way 1-shot訓練策略中產生0.9%/ 2.0%的收益,在2-way 5-shot訓練策略中產生2.0%/ 2.1%的收益。這些結果證實,我們注意力的RPN會產生更好的建議並有益於最終的檢測預測。因此,在我們的完整模型中采用了注意力RPN。

5

實驗

圖片

圖片

圖片

實驗可視化

圖片

圖片

圖片

/End.

 

我們開創“ 計算機視覺協會 ”知識星球一年有余,也得到很多同學的認可,我們定時會推送實踐型內容與大家分享,在星球里的同學可以隨時提問,隨時提需求,我們都會及時給予回復及給出對應的答復。

圖片

如果想加入我們“ 計算機視覺研究院 ”,請掃二維碼加入我們。我們會按照你的需求將你拉入對應的學習群!
計算機視覺研究院主要涉及深度學習領域,主要致力於人臉檢測、人臉識別,多目標檢測、目標跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新框架,我們這次改革不同點就是,我們要着重” 研究 “。之后我們會針對相應領域分享實踐過程,讓大家真正體會 擺脫理論 的真實場景,培養愛動手編程愛動腦思考的習慣!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM