論文基於DA Faster R-CNN系列提出類別正則化框架,充分利用多標簽分類的弱定位能力以及圖片級預測和實例級預測的類一致性,從實驗結果來看,類該方法能夠很好地提升DA Faster R-CNN系列的性能
來源:曉飛的算法工程筆記 公眾號
論文: Exploring Categorical Regularization for Domain Adaptive Object Detection
Introduction
由於標注成本大,在訓練好檢測算法后,面對差異較大的新場景(類別不變),若想獲取大量的帶標注圖片進行再訓練是很不方便的。對於這種情況,無監督的域自適應方法能夠靈活地自適應新場景,從包含豐富標注信息的源域轉移到無標注的目標域。其中,域自適應方法中比較有代表性的是Donamin Adaptive(DA) Faster R-CNN系列,利用對抗訓練來對齊圖片和實例的分布,使得模型能夠做到域不變性,具體可以看上一篇介紹。
但是這些方法大都把無法轉化的背景內容也進行了對齊,而且在實例對齊時,沒有從包含較多低質量的proposal集合中識別出難樣本。為了解決上面的問題,論文提出類別正則化框架,幫助DA Faster R-CNN專注於對齊跨域中的關鍵區域和重要目標。
論文的主要貢獻如下:
- 提出新的類別正則化框架,作為域自適應目標檢測算法的插件,不需要額外的標注和超參數。
- 設計了兩個正則化模塊,分別用於榨取卷積分類器的弱定位能力以及圖像級別預測和實例級別預測間的類別一致性,能夠幫助分類器專注於對齊目標相關區域以及難對齊實例。
- 對多種域轉移場景進行實驗,驗證論文提出的方法的有效性。從實驗結果來看,類別正則化框架能夠提出DA Faster R-CNN系列方法的性能,並在基礎數據集上達到SOTA。
Approach
Framework Overview
論文方法的整體架構如圖2,在DA Faster R-CNN基礎上添加了ICR(image-level categorical regularization)和CCR(categorical consistency regularization),能夠更好地對齊域間的關鍵區域和重要實例。
Image-Level Categorical Regularization
ICR的主要目的是提高主干網絡的目標特征提取能力,同時降低背景的激活。結構如圖2b所示,ICR使用源域數據進行有監督訓練,對主干網絡的特征輸出進行全局池化,再使用多標簽分類器($1\times 1$卷積)進行分類,損失函數使用標准交叉熵多標簽損失:
$C$為類別總數,$yc$為GT標簽,$\hat{y}c$為預測標簽,$y^c=1$表示圖片至少包含一個類別$c$物體。
ICR模塊利用多標簽分類器的弱定位能力,能夠有監督地引導主干網絡只激活類相關特征。如圖3所示,類相關的特征會有較高的激活值。在圖像級對齊時,能夠對齊域間關鍵區域,同時,由於背景沒有參與到圖像級多標簽分類器中,能夠有效減少擬合不可對齊的源背景的可能性。
Categorical Consistency Regularization
CCR負責發現難對齊實例,調整實例級對齊損失的權重,基於兩點考慮:
- 由於不能區分前景和后景,實例對齊模塊可能被低質量背景proposal占據。
- 添加的圖像級分類器和實例檢測head是互補的,前者負責獲取所有圖像級上下文信息,后者使用精確的RoI特征,當兩者預測不一致時,該實例就是難樣本。
基於以上考慮,論文采用圖像級預測和實例級預測的類別一致性作為目標分類難易程度的判斷,並在目標域中使用該一致性作為正則因子,調節難對齊樣本在實例對齊中的權重。假定$\hat{p}{c}_j$為預測第$j$個實例為類別$c$的概率,$\hat{y}c$為實例預測包含類別$c$的概率,類別一致性的計算為
使用公式5來加權實例級對抗損失
需要注意,僅對目標域的檢測head預測為前景的實例使用公式5加權,源域的所有實例和目標域的背景實例均使用$d_j=1$,前者因為是有監督的,而后者則是因為不重要。
Integration with DA Faster R-CNN Series
將論文提出的方法加入到DA Faster R-CNN中,ICR為直接加入,CCR為對原損失的修改,最終的損失函數為
論文也對比了另外一種主流的DA -Faster改進SW-Faster,該方法使用弱全局對齊模型來提升DA-Faster的強圖像對齊模塊,直接加入ICR和CCR,最終的損失函數為
Experiments
Comparison Results
Faster R-CNN(Source)僅使用源域訓練,Faster R-CNN(Oracle)僅使用目標域訓練。
-
Weather Adaptation
這里對比模型對天氣的自適應性。
-
Scene Adaptation
這里對比模型對不同城市的場景的自適應性。
-
Dissimilar Domain Adaptation
這里對比模型對真實圖片和卡通圖片的自適應性。
Visualization and Analyses
對前面對比實驗的目標域測試圖片進行了可視化。
將特征降維並可視化,藍點為源域樣本,紅點為目標域樣本,可以看到論文的方法能夠讓域間的同分類實例距離更近。
論文也計算了域間距離,使用Earth Movers Distance (EMD) 測量,SW-Faster, SW-Faster-ICR and SW-FasterICR-CCR的結果分別是8.84、8.59和8.15。
CONCLUSION
論文基於DA Faster R-CNN系列提出類別正則化框架,充分利用多標簽分類的弱定位能力以及圖片級預測和實例級預測的類一致性,從實驗結果來看,類該方法能夠很好地提升DA Faster R-CNN系列的性能。
如果本文對你有幫助,麻煩點個贊或在看唄~
更多內容請關注 微信公眾號【曉飛的算法工程筆記】