LSTD論文解析


 

1 介紹

近幾年,有大量的目標檢測方法被提出,並取得了很大的成功,不過,這些方法都是依賴帶有標簽的數據集進行訓練。在實際應用中,對於給定的目標檢測任務,全注釋訓練集可能會受到限制,從而限制了深度檢測器的性能。

一種解決辦法是收集易於標注的標簽圖片,作者列出了近幾年做弱監督目標檢測的方法,但這些方法都存在一個共同的問題,在訓練過程中缺少足夠的監督。一種解決方式:在深度模型上使用遷移學習,弱/半監督解相比,這通常是一個較好的選擇,沒有額外的數據收集,但遷移學習對於low-short檢測也面臨很大挑戰。首先當目標檢測集有限時,對象檢測應用一般轉移策略是不合適的。這主要是因為,對如此小的目標集進行微調,往往很難消除檢測和分類之間的任務差異。第二與深度分類器相比,深度檢測器在轉移學習過程中更容易發生過擬合。這主要是由於探測器必須學習更多的對象特定的表示,無論是定位和分類任務的檢測。最后,簡單的微調可能會降低可移植性,因為它常常忽略了來自源和目標領域的重要目標知識。

為了解決以上面臨的挑戰作者提出了LSTD,該方法主要實現了:結合SSD與Faster R-CNN的優點來解決low-shot detection。同時該方法在分類與邊界框回歸方面非常靈活,促進了遷移學習的使用。LSTD解決了遷移學習解決了不同任務導致的差異性問題。

我們采用了一種新的正則化方法來增強微調,該方法由轉移知識(TK)和背景抑制(BD)組成。TK將每個目標域的源-對象-標簽知識轉移到目標域,來概括在目標域的low-shot learning。BD將目標圖像的邊界框知識作為對特征圖的額外監督,使LSTD在傳輸過程中對目標進行聚焦時,抑制背景干擾。

Low-short Learning:

Low-shot learning主要受人類在只有一點點概念的情況下就能學習到新的知識的啟發下產生的。最近這幾年陸續提出許多該方面的方法,但主要是應用於圖像分類。在目標檢測領域,近幾年也提出了一些方法來實現若監督學習,不過由於在訓練時候缺乏有效的監督最終得到的效果並不是很好。遷移學習能過解決數據集小而導致效果不佳的問題,主要是由於大規模的源基准測試可以將學習過程推廣到low-shot目標領域。由於這些體系結構中的目標定位和分類都缺乏有效的low-shot檢測的遷移學習設計,使用標准的深度檢測器進行簡單的微調可能會降低檢測性能。此外,在對一些目標圖像進行微調時,可能沒有充分考慮來自源和目標域的對象知識。

   不同於先前的方法,作者提出了一個low-shot檢測器(LSTD)實現在少量數據集下的目標檢測。該方法結合了SSD與Faster R-CNN的優點,同時設計了多個正則化遷移學習框架,使得LSTD能夠結合源域與目標域的目標知識來提高low-shot的檢測精度。

 

圖一為LSTD的深度網絡結構,結合了SSD與Faster R-CNN來解決low-set問題。多尺度卷積層主要用於邊界框回歸和coarse-to-fine(解決分類)。

 

圖二 LSTD正則化遷移學習。我們使用large-scale resource數據集來訓練源域LSTD,同時使用預訓練源域LSTD來初始化目標域LSTD,最后我們提出low-short目標正則化並使用小尺度目標來微調目標域LSTD。


 3 Low-Short Trandfer Detector

介紹LSTD接下來的實現細節。

3.1 LSTD基本的深度結構。

當訓練數據很小時,為了提高訓練的效率,作者減小訓練的復雜度。網絡結構如圖1所示。結合了Faster R-CNN與SSD方法對low-shot detection實現高效率邊界框回歸和目標分類。

首先,設計了SSD的邊界盒回歸。具體來說,對於每一個選定的卷積層,在卷積特征圖的每個空間位置上都有一些默認的候選框(比例和比例不同)。對於任何與ground truth對象匹配的候選框,使用回歸損失(光滑L1)對預測框與地面真值邊界框之間的偏移量(框中心、寬度和高度)進行補償。SSD中的這種多卷積特征設計適合定位不同尺度大小的對象。這對於low-shot檢測尤其重要,因為我們缺少具有大小多樣性的訓練樣本。更重要的是,SSD中的回歸器是在所有對象類別之間共享的,而不是像更快的RCNN中那樣對每個類別都是特定的。

在這種情況下,SSD的回歸參數經過大規模源域的預訓練,可以在不同的low-shot目標域中重復初始化。這避免了隨機重新初始化邊界框回歸,從而減少了在目標域中只有少量圖像的微調負擔。

第二,我們使用Faster R-CNN來實現目標分類。首先我們檢查默認框是目標還是背景。根據每個分類器的分類得分,在快速RCNN中選擇區域建議網絡(RPN)的目標建議。接下來,我們在中層卷積層上使用ROI Pool,並為每層每個提案生成一個固定大小的卷積特征圖。最后,我們使用ROI池層上運用的兩個卷積層來實現(K+1)-對象分類,而不是使用原來更快的RCNN中的全連接層。這進一步減少了過度擬合與較少的訓練參數。另外,相對於對SSD中每個缺省框的直接(K+1)-對象分類,粗到細分類器可能更有效地緩解遷移學習的訓練困難。我們的主要觀點是,與背景相比,源和目標中的對象可能共享特征(如清晰的邊緣、均勻的紋理)。因此,,我們將這些知識用來判斷是目標還是不是目標。這有助於生成更好的目標對象建議,從而提高最終的性能。相反,直接(K + 1)分類器必須處理數千個隨機選擇的建議。

Summary. 我們的深度架構旨在減少在low-shot檢測中遷移學習的困難。為了實現這一點,我們靈活地利用SSD和faser cnn的核心設計--多卷積層設計實現邊界盒回歸的和粗到細的目標分類。此外,LSTD分開進行邊界盒回歸和對象分類,進一步分解了low-shot檢測中的學習困難。

3.2 Regularized Transfer Learning for LSTD

在設計了一種靈活的LSTD深度體系結構后,引入了一種端到端正則化遷移學習框架來實現low-shot檢測工作。整個過程如圖2所示。首先,我們使用一個大型源數據集來訓練LSTD,如圖1。其次,在目標域對預訓練后的LSTD進行微調,提出了一種新的正則化方法,進一步提高了對少量訓練圖像的檢測能力。整個損失函數為:

Ltotal = Lmain + Lreg

Lmain為邊界框回歸和分類損失的總和。請注意,源和目標之間的對象類別可以是相關的,但是不同的,因為low-shot檢測的目的是從少量的目標數據中檢測以前不可見的類別。在這種情況下,需要對在目標域的(K + 1)-對象分類(即, K object + background)隨機重新初始化,盡管可以從源域中預先訓練的LSTD來初始化邊界框回歸和對象或不對象分類。然而,對L main進行微調仍可能出現過擬合。為了進一步提高目標區域的低目標檢測能力,我們設計了一種新的正則化算法Lreg

Lreg = λBD LBD + λTK LTK

L BD和L TK分別表示背景抑郁和傳遞知識,λBD和λTK為L BD和L TK的系數。

Background-Depression (BD) Regularization

LSTD深層體系結構的邊界框回歸與使用SSD的多卷積層回歸算法相同。雖然這種設計可以減少不同大小目標的訓練困難,但是復雜的背景仍然會影響low-shot場景下的定位性能。於是提出了利用目標域中目標的信息來進行BD回歸。具體來說,對於目標域中的訓練圖像,我們首先從LSTD的中層卷積層生成卷積特征圖。然后,我們使用圖像中所有對象的ground-truth框來編碼特征圖。因此,我們可以識別出與圖像背景相關特征區域,即F BD。為了消除背景干擾,我們使用L2正則化來懲罰fbd的激活

LBD = ||FBD ||2

通過使用LBD、LSTD能夠在對目標物體更加關注的同時抑制背景區域,對少量訓練圖像的訓練尤為重要。從圖3可以清楚地看出,我們的BD正則化是有幫助的減少背景干擾

 


圖三背景抑制正則化(BD),在特征通道上對卷積特征圖(conv5 - 3)進行平均得到特征熱圖。BD可以有效地減輕特征熱圖上的背景干擾,從而使LSTD能夠聚焦於目標物體。

 

Transfer-Knowledge (TK) Regularization.

LSTD的粗分類到細分類可以減輕目標分類的困難,由於可以在目標域內使用預訓練的目標-或-非分類器。但是,由於源和目標之間的類別不同,(K +1)-對象分類器必須為目標域中的K個新對象(加上背景)隨機重新初始化。在這種情況下,僅使用目標數據微調這個分類器可能無法充分利用源領域知識。如圖4所示,由於顏色(或形狀)相似,目標對象牛(或飛機)與源域類別熊(或風箏)具有很強的相關性。為此,我們提出了一種新的傳輸知識(TK)正則化方法,將源網絡的目標標簽預測作為源域知識實現對low-shot目標檢測的目標訓練網絡進行調整。注意,在檢測任務中目標分類要求應用於每個對象提案,而不是標准圖像分類任務中的整個圖像。因此,我們為目標域中的每個對象提案設計了TK正則化。

 

 圖四Transfer-Knowledge (TK) regularization 對於一個目標對象提案(紅框:得分最高的提案),我們通過Eq.(4)繪制出source-object的前5個softer label,TK可以有效地為目標對象提案提供重要的source- domain knowledge,即,由於顏色(或形狀)相似,目標對象牛在source上(或飛機)與Bear密切相關(或風箏)。

 

1    Source-Domain Knowledge

將訓練圖像分別輸入源域和目標域LSTDs。然后,將目標域提議應用於源域LSTD的ROI池層,它可以從源域對象分類器中最終生成一個知識向量,

 

as是每個對象提議的pre-softmax激活向量,τ> 1是一個溫度參數, 通過是與richer label-relation標簽信息可以產生softer label
  2      Target-Domain Prediction of Source-Domain Categories
為了將源領域知識pτs添加到目標領域LSTD的訓練過程,我們將目標域LSTD變成一個多任務學習框架。具體來說,我們在目標域LSTD的末尾添加了一個source-object soften分類。對於每一個目標提議框,該分類器都會產生對源對象類別的soften預測,

 

 

A pre是每個提案的pre-softmax激活

3      TK Regularization

對於源領域LSTD的知識pτs和目標域LSTD的soften預測pτpre,我們應用交叉熵作為損失作為TK正規化,

在這種情況下,可以將源域知識集中到目標域的訓練過程中,從而使LSTD在目標域內實現low-shot檢出

Summary: 為了減少訓練時間過短的過度擬合現象,提出了一種端到端正則化的LSTD遷移學習框架。這是第一個針對low-shot的遷移學習。整個訓練過程如Alg. 1所示,我們充分利用預訓練的源域LSTD來推廣目標域LSTD。此外,我們還設計了一種新的正則化方法。以有限的目標訓練集有效地進行微調

4實驗

Date set : 由於我們的LSTD是一個基於正則化轉移學習框架的低概率檢測器,所以我們采用了一組檢測基准數據集 coco,voc2007和VOC2010來作為源域和目標域如表1所示。訓練集在每個任務的源域中是大規模的,而在目標域中是low-shot的(1/2/5/10/30每個目標對象類的訓練圖像)。此外,為了評估我們的LSTD是否能夠從目標域中的少量訓練鏡頭中檢測到未被發現的目標類別,我們仔細選擇了源和目標的目標分類,使其不重疊。最后,我們使用PASCAL VOC測試集的標准測試規則來求IOU為0.5的平均檢測精度。注意,task 1的目標域是ImageNet2015有50對象。因此,我們為這個目標域定義了一個測試集,在這個測試集中,我們在ImageNet2015的每個target-object類中隨機采樣100張圖像。公平起見,該目標域中的訓練和測試圖像是不重疊的。task 2和task 3的目標域參照標准VOC2007 VOC2010。因此,我們使用標准測試集進行評估。


表1,數據描述,為了評估LSTD是否能夠從目標域中的少量訓練sjot中檢測到不可見的目標類別,對源和目標的目標類別進行了仔細的非重疊選擇
首先,LSTD的基本深層架構是基於VGG16 (Simonyan和Zisser- man 2014),類似於SSD和Faster RCNN。對於邊界盒回歸,我們使用與SSD相同的結構。對於對象分類,我們在conv7上應用ROI池層,在(K + 1)-對象分類器之前並添加兩個卷積層(conv12:,3×3×256,conv13: 3×3×256 for task 1/2/3)。其次,我們在一個正則化的遷移學習框架(Alg. 1)中訓練LSTD。在源域中,我們為task 1/2/3中的每個小批輸入32張訓練圖像到LSTD中來進行邊界框回歸和目標分類。隨后,用100/100/64提議框(閥值為0.65對前1000提議進行非極大值抑制)訓練(K+1)-對象分類器。在目標域,所有的訓練樣本與源域相同。除了選擇64/64/64個提議來訓練(K+1)對象分類器外,conv5 3采用了后地降正則化,轉移知識正則化中的溫度參數為2。背景抑郁和轉移知識的權重系數均為0.5。最后,源和目標的優化策略均為Adam (Kingma和Ba 2015),其中初始學習率為0.0002(衰減0.1),動量/動量2為0.9/0.99,權值衰減為0.0001。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM