CVPR2018論文看點:基於度量學習分類與少鏡頭目標檢測
簡介
本文鏈接地址:https://arxiv.org/pdf/1806.04728.pdf
距離度量學習(DML)已成功地應用於目標分類,無論是在訓練數據豐富的標准體系中,還是在每個類別僅用幾個例子表示的few-shot場景中。在中,提出了一種新的DML方法,在一個端到端訓練過程中,同時學習主干網絡參數、嵌入空間以及該空間中每個訓練類別的多模態分布。對於基於各種標准細粒度數據集的基於DML的目標分類,方法優於最先進的方法。此外,將提出的DML架構作為分類頭合並到一個標准的目標檢測模型中,證明了方法在處理few-shot目標檢測問題上的有效性。與強基線相比,當只有少數訓練示例可用時,在ImageNet-LOC數據集上獲得了最佳結果。還為該領域提供了一個新的基於ImageNet數據集的場景benchmark,用於few-shot檢測任務。
1、簡介
提出了一種新的距離度量學習方法(DML),並證明了它在few shot目標檢測和目標分類方面的有效性。用具有多個模態的混合模型表示每個類,並將這些模態的中心作為類的表示向量。與以往的方法不同,在單一的端到端訓練過程中,同時學習了訓練類別的嵌入空間、主干網絡參數和代表性向量。
對於few shot目標檢測,基於現代方法,該方法依賴於區域建議網絡(RPN)來生成感興趣的區域,並使用分類器“head”將這些RoI分類為目標類別之一或背景區域。為了通過幾個訓練示例學習一個健壯的檢測器(單次檢測示例見圖1),建議使用提出的DML方法,用一個子網替換分類器頭部,該子網學習為每個ROI計算類后驗。這個子網的輸入是由ROIs匯集的特征向量,通過將其嵌入向量與每個類別的一組代表進行比較,計算給定ROI的類后驗。檢測任務需要解決“開放集識別問題”,即將ROI分為結構化前景類別和非結構化背景類別。在這種情況下,聯合端到端訓練非常重要,因為對DML單獨訓練的背景ROI進行采樣非常低效。
在few-shot檢出實驗中,引入了新的檢測類別。這是通過使用從為這些類別提供的少量訓練示例(k個用於k-shot檢測的示例)的前景RoI中計算的嵌入向量來替換所學習的代表(對應於舊類別)來實現的。還研究了微調模型的效果和baseline的few-shot學習。與基線和以前的工作相比,關於few-shot檢測任務的報告顯示了有希望的結果,強調了聯合優化主干和DML嵌入的有效性。圖2概略地說明了few-shot檢測方法。
主要貢獻有三個方面。首先,提出了一種新的子網結構,用於聯合訓練嵌入空間和該空間中的混合分布集,每個類別都有一個(多模態)混合。該體系結構對基於DML的目標分類和few-shot目標檢測都有較好的改善作用。其次,提出了一種基於DML分類器頭的目標檢測器的設計方法,該方法能夠識別新的類別,並將其轉化為一種few-shot檢測器。據所知,這是前所未有的。這可能是因為檢測器訓練批次通常被限制在每個GPU一個圖像,不允許在類別內容方面進行批次控制。這種控制是目前任何使用情景訓練的few-shot學習者所需要的。這反過來又使得在端到端訓練的檢測器中使用這些方法具有挑戰性。在方法中,代表集充當“內部存儲器”,在訓練批次之間傳遞信息。第三,在few-shot分類文獻中,評估方法的一種常見做法是通過平均多個少鏡頭任務實例(稱為插曲)的性能來評估。為few-shot檢測問題提供了這樣一種情景基准,建立在具有挑戰性的細粒度少鏡頭檢測任務之上。
3、RePMet的結構
提出一種子網結構和相應的損失,使能夠訓練一個DML嵌入與多模態混合分布用於計算類后驗在產生的嵌入空間。然后這個子網成為一個基於DML的分類器頭部,它可以附加在分類器或檢測主干的頂部。需要注意的是,DML子網是與生成功能的主干一起訓練的。圖3描述了所提出的子網的體系結構。
訓練是分批組織的,但是為了簡單起見,將把子網的輸入稱為由給定圖像(或ROI)的主干計算的單個(池化的)特征向量。主干的例子有Inception V3或FPN(沒有R-CNN)。首先使用了一個DML嵌入模塊,它由幾個具有批標准化(BN)和ReLU非線性的全連通(FC)層組成(在實驗中使用了2-3個這樣的層)。嵌入模塊的輸出是一個矢量,其中共同的作為一組額外的訓練參數,持有一組“代表”。每個向量Rij表示學習判別混合分布在嵌入空間的第j階模態的中心,對於總N類中的第i類。假設每個類的分布中有固定數量的K模(峰),所以1≤j≤K。
圖4說明了所提出的DML子網是如何集成到用於基於DML的分類和few-shot檢測實驗的完整網絡體系結構中的。
4、結果
已經評估了提出的DML子網在一系列分類和one-shot檢測任務上的實用性。
4.1、基於度量學習的分類
精細分類:在一組細粒度分類數據集上測試了方法,這些數據集廣泛應用於最先進的DML分類工作中:Stanford Dogs、Oxford- iiit Pet、Oxford 102 Flowers和ImageNet Attributes。表1中報告的結果表明,方法在除Oxford Flowers外的所有數據集上都優於最先進的DML分類方法。圖5顯示了訓練實例在嵌入空間中隨訓練迭代的t-SNE圖的演變。
屬性分布:驗證了在DML分類訓練之后,具有相似屬性的圖像在嵌入空間中更加接近(即使訓練期間沒有使用屬性注釋)。使用了與DML相同的實驗方案。
對於這個數據集中的每個圖像,對於每個屬性,計算具有這個屬性的鄰居在不同鄰域基數上的比例。圖6(a)顯示了與[25]和其他方法相比得到的改進結果。
圖6(b)和圖6(c)表明,與[25]相比,方法對超參數的變化具有更強的魯棒性。這些圖分別描述了每一種方法和每一次訓練迭代時,通過改變嵌入網絡體系結構得到的分類誤差的標准差和每個類的代表數。
4.2、few-shot目標檢測
表3(在它看不見類的部分)中報告了對本文方法和一組不可見類的baseline的評估。對5路檢測任務(500個這樣的任務)計算平均平均精度(mAP),單位為%。通過聯合收集和評估(計算精度和召回度的得分閾值)在所有500個測試集中檢測到的全部包圍框集合,每個包圍框包含50張查詢圖像,計算出地圖。此外,對於每一種測試方法(方法和基線),重復實驗,同時僅在情節訓練圖像上微調網絡的最后一層(對於模型和使用DML的基線,對最后一層嵌入層和代表進行微調)。表3還報告了微調后的結果。圖7顯示了單鏡頭檢測測試結果的示例。
6、總結和結論
在這項工作中,提出了一種新的DML方法,與其他基於DML的方法相比,在目標分類方面取得了最先進的性能。利用這種方法,設計了一種最早的few-shot方法,與目前最先進的few-shot方法進行了比較。