NeurIPS 2019 | 基於Co-Attention和Co-Excitation的少樣本目標檢測


論文提出CoAE少樣本目標檢測算法,該算法使用non-local block來提取目標圖片與查詢圖片間的對應特征,使得RPN網絡能夠准確的獲取對應類別對象的位置,另外使用類似SE block的squeeze and co-excitation模塊來根據查詢圖片加強對應的特征緯度,最后結合margin based ranking loss達到了state-of-the-art,論文創新點滿滿,值得一讀

論文:One-Shot Object Detection with Co-Attention and Co-Excitation

Introduction


  論文認為,人類能夠在圖片中找出模版對應的物體,是因為人類具備將像素分組,提取獨特特征比對以及專注定位的能力。因此,論文希望提出一個具備人類視覺功能的網絡來解決one-shot目標檢測的問題,給予網絡一張未見過的查詢模版(query image),然后在目標圖片(taget image)中找出其位置。論文提出的one-shot目標檢測算法的特征主要來自兩種上下文信息:

  • 目標圖片能夠提供空間上下文,對比其它前景物體和背景來找出特殊對象的位置
  • 目標圖片和查詢圖片能夠提供類別上下文,而確切的類別層次則是由模版和目標對象的相同屬性(顏色,紋理,形狀等)決定的

  度量學習(Metric learning)是one-shot分類問題的關鍵,但不能直接簡單地將學習到的度量方法應用到one-shot目標檢測中,因為檢測器需要先知道哪塊區域最有可能包含目標才能進行比較。另外,目標追蹤可以認為是少樣本目標檢測的一個特殊案例,區別在於,少樣本目標檢測的目標圖片中不一定包含查詢圖片,並且允許圖片之間存在明顯的外觀差異,只要他們有公共的特征進行歸類即可。論文推出新的機制squeeze and co-excitation(CoAE)來同時強化新類別對象在查詢圖片和目標圖片上的特征,實驗證明,CoAE框架能更好地發掘空間和類別上下文信息,帶來很好的性能提醒

Our method


  定義數據集的類別標簽集合為$C$,進一步將其分為$C=C_0 \cup C_1$,分別用於訓練和測試。少樣本目標檢測的流程定義為,給予查詢圖片$p$,為$C_1$集合的一個類別對象,測試就是查找目標圖片$I$所有對應的對象,假設每張可用的圖片包含至少一個查詢對象

  論文的主要架構如1,主要包含4個部分,分別是前面的基礎特征提取,然后是Non-local feature的提取,用於提取共同特征,接着是論文提出的squeeze and co-excitation(CoAE)模塊,用於強化目標channel,最后是metric模塊,用於最好的分類

Non-local object proposals

  定義訓練集為$D$,包含$C_0$類別的bbox,論文采用Faster R-CNN架構進行檢測,這會帶來一個基礎問題,即RPN能否檢測出未訓練過的類別($C_1$)的bbox。由於$C_1$類別與$C_0$類別可能存在十分明顯的區別,因此,RPN不一定能檢測出$C_1$的bbox。為了解決這個問題,論文引入non-local operation來優化卷積特征,non-local operation是一種類似attention的操作,能夠根據參考輸入來強化目標輸入上的特征分布,具體可以看 Non-local neural networks

  讓$I$為目標圖片,$p$為查詢圖片,目標圖片的主干網絡輸出為$\phi(I) \in \mathbb{R}^{N \times W_I \times H_I}$,查詢圖片的輸出為$\phi(p)\in \mathbb{R}^{N\times W_p\times H_p}$。將$\phi(p)$作為參考輸入,$\phi(I)$的non-local block輸出為$\varphi(I;p)\in \mathbb{R}^{N\times W_I\times H_I}$,同樣的,以$\phi(I)$作為參考輸入,可以得到$\phi(p)$的$\varphi(p;I)\in \mathbb{R}^{N\times W_p\times H_p}$,$I$和$p$之間的相互non-local operations可以認為進行co-attention機制

  兩個擴展的特征圖可以表示為公式1和公式2,$\bigoplus$是element-wise sum。由於$F(I)$不僅包含了目標圖片的特征,還包含了$I$和$p$加權特征,所以將RPN接在這層特征上能夠發現更多關於查詢圖片$p$的信息,從而獲取更高質量的bbox,即non-local region proposals更適合少樣本目標檢測

Squeeze and co-excitation

  除了關聯region proposals和查詢圖片外,co-attention機制產生了channel數一樣的兩組特征$F(I)$ $F(p)$,而這兩組特征可以通過論文提出的squeeze-and-co-excitation(SCE)來根據查詢圖片$p$對N個channel進行自適應重新加權。具體地,squeeze步驟通過GAP(global average pooling)概括了每一個特征圖,而co-excitation則同時對$F(I)$和$F(p)$進行channel緯度的特征加強,重點加強對最后相似度度量有用的特征。在squeeze層和co-excitation層之間,放置了兩個fc/MLP層,跟SE block設計一樣

  SCE operation如公式3,$\tilde{F}(p)$和$\tilde{F}(I)$為重新加強后的特征圖,$w\in \mathbb{R}^N$是co-excitation向量,而$\bigodot$表示element-wise product

  通過公式3,查詢圖片$p$可以表示為公式4,同樣RPN提取的區域特征$r$可以同樣得出,例如對$\tilde{F}(I)$的裁剪區域進行channel-wise的GAP

Proposal ranking

  論文設計了一個兩層MLP網絡M,以二分類softmax結尾,RPN根據查詢圖片$p$選出K個bbox,K一般為128。在訓練階段,K個bbox會根據IoU是否大於0.5分成前景(label 1)和背景(label 0),接着使用margin-based ranking loss來指導度量學習,使得最相關的bbox出現在bbox列表的前面。因此,論文將每個bbox的特征向量$r$分別和查詢圖片特征$r$進行concatenate,標記為$x=[r^T; q^T]\in \mathbb{R}^{2N}$,網絡M的層輸出分布$2N\rightarrow 8\rightarrow 2$

  論文定義margin-based ranking loss為公式5,$s=M(x)$為前景的預測的置信度,$[ \cdot ]$為Iverson bracket,括號內為true則輸出1,否則輸出0,$m+$為前景的下限,$m-$為背景的上線,在實際中,一般分別設為0.7和0.3
  margin-based loss分為兩部分,前部分為限制前景和背景的置信度,前景必須大於0.7,背景必須小於0.3,否則產生loss。而另一部分$\Delta$則是ranking的loss,初始的順序是根據RPN的置信度輸出。這里可以看出,論文沒有設定真正意義的先后順序,而是限制了正負樣本間的置信度差,同類別樣本間置信度差要小於0.3,而不同類別樣本間置信度差則要大於0.7

  最后的總loss如公式7,前兩個loss為交叉熵和Faster R-CNN的回歸loss

Experiments


Datasets and hyperparameters

  Table1展示了VOC上的seen和unseen類別,而在COCO上,則對80個類進行4等分,然后隨機選取3個作為seen類別,剩下一個為unseen類別,如圖2所示。訓練使用SGD優化器,momentum為0.9,訓練10個周期,batch size為128,使用8塊v100,學習率為0.01,每4個周期下降10倍,margin-based ranking loss的$\lambda=3$

Generating target and query pairs

  對於VOC,直接裁剪gt bbox作為查詢圖片,而對於COCO,由於目標太小且對於人也太難辨認,不能直接裁剪,因此,使用預訓練的Mask R-CNN去掉過小和過難的目標。另外,實驗僅使用Mask R-CNN檢測出來的GT。在訓練時,對於目標圖片,隨機獲取圖片上的seen類別作為查詢圖片。而在測試時,先使用圖片ID作為種子,隨機打亂查詢圖片的順序,然后選取前五個查詢圖片,最后計算mAP。打亂順序能保證獲取的5個查詢圖片上隨機的,從而保證驗證結果上准確的

ImageNet pre-training

  為了保證實驗的嚴格性,使用縮減后的ImageNet對ResNet-50進行重新訓練,將COCO-related ImageNet類別去掉,大約933052張圖片,剩下725類,精度top-1 75.8%,完整的ImageNet包含1284168張圖片,共1000類

Overall performance

  對於VOC,Table1中可以看到,使用縮減的數據集訓練的模型依然優於baseline模型,而使用完整的數據集訓練的模型則是性能有很明顯地提升。unseen類別性能比seen類別好,這是由於部分類別的對象差異較大,比如plant, bottle, chair

  對於COCO,Table2中可以看出,論文的模型在seen類別和unseen類別上優於Siamese Mask-RCNN

Ablation studies


  • Co-attention, co-excitation, and margin-based ranking loss

  論文研究了不同的策略的共享,如Table3。首先,不使用Co-attention和Co-excitation的模型表現最差,而分別單獨加入non-local RPN和SCE在VOC和COCO上能分別能帶來6.3/4.4mAP和9.8/8.2AP(%)提升,同時加入則分別進一步帶來0.9/1.8mAP(%)和0.3/1.9AP(%)提升,這意味着co-attention和co-exciation對性能表現都很關鍵,而margin-based ranking loss也是很重要的

  • Visualizing the distribution of non-local object proposals

  為了分析non-local bbox的性能,將bbox分布以heatmap方式可視化, 如Figure3,co-attention模塊讓RPN更專注於查詢圖片的相似區域

  • Visualizing the characteristics of co-excitation

  為了分析co-excitation機制是否學習到了不同類別的權重分布,論文收集了測試時不同類別的查詢圖片的co-excitation權重,最后對其求平均得到類別的單一向量,再用歐式距離計算類別單一向量間的距離。從圖4的結果可以看出,co-excitation模塊學習到了有意義的權重分布,相似的物體的向量距離比較近,而person類別則遠離其它所有類別,表明person類別的權重與其它類別基本不同

  • Analyzing the co-excitation mechanism

  論文進行了兩個相反的實驗,首先對同一張目標圖片使用不同的查詢圖片,從圖5的結果可以看出,p1和p2的顏色與目標相似,而p3和p4則截然不同,從結果來看,結論是前兩張圖片更注重顏色,而后兩張則更注重形狀特征。另外一個則是對不同的目標圖片使用同一張查詢圖片,從圖6結果可以看出,I1和I2更注重紋理而I3和I4更注重形狀特征

Conclusion


  論文提出CoAE少樣本目標檢測算法能夠根據查詢圖片提取對應的特征,不依賴於訓練數據的標注信息,在COCO和VOC上達到state-of-the-art,未來的工作是將網絡推廣到k-shot(k$\ge$0)目標檢測中

參考內容

寫作不易,未經允許不得轉載~
更多內容請關注個人微信公眾號【曉飛的算法工程筆記】

work-life balance.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM