Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation


Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation

2020-03-30 19:02:01

 

Paperhttps://arxiv.org/abs/2003.08813(CVPR-2020 Oral)

Codehttps://github.com/luogen1996/MCN 

Blog: 機器之心 

 

1. Background and Motivation

 

本文主要是討論了基於 text 的分割 和 檢測任務之間互補性。如圖 1 所示,一般情況下,這兩個任務會被單獨的進行處理: Referring Expression Comprehension (REC) and Referring Expression Segmentation (RES)。在 REC 中,大部分的方法采用的是 多階段的方式進行處理,即:首先進行顯著性檢測,然后用多模態交互方法選擇最匹配的作為最終結果。在 RES 中,現有的方法通常先用 LSTM/GRU 模型將文本進行映射,然后進行分割。雖然最近的方法可以同時處理 REC 和  RES,但是這種多任務處理的方式,很大程度上依賴於他們的骨干檢測器, maskRCNN,而不是他們進行了兩個任務之間的交互。與 RES 相比,REC 在預測潛在位置上更有優勢,這可以協助 RES 來確定正確的示例。另一方面,RES 使用的是 pixel-level labels,可以幫助 REC 獲得更好的 language-vision alignments。然而,這種聯合訓練,並不是很直接的,因為有如下的沖突:如圖 1(b)所示,這種預測沖突在 general 的物體檢測和分割中也經常遇見。然而,這種沖突在 RES 和 REC 上更加重要,因為僅僅一部分多示例是正確的 referents。

 

 

 

為了解決上述挑戰,作者提出 多任務協同網絡 (multi-task collaborative network, MCN) 來聯合的學習 REC 和 RES,如圖 2 所示。MCN 原則上來說,屬於一種多模態、多任務協同學習框架。在文本信息的基礎上,將兩個任務聯合在一起,來最大化他們的協同學習。特別的,視覺骨干網絡和語言編碼器是共享的,兩個任務的多模態推理分支是相對獨立的。這種設計是為了考慮 REC 和 RES 任務之間的固有的差異性,而避免出現一個任務效果很好,但是另外一個任務效果很差的情況,RES 通常需要更大分辨率的特征圖,來進行像素級的預測。

 

為了解決上述預測沖突問題,作者在 MCN 的基礎上,又添加了兩項創新性的設計: Consistency Energy Maximization (CEM) and Adaptive Soft Non-Located Suppression (ASNLS)。CEM 是一種以 language 為中心的損失函數,通過最大化兩個推理分支的一致性能量,使得兩個任務可以聚焦在相似的視覺區域上。此外,其也提供了一個分支倆鏈接 REC 和 RES 的學習過程。ASNLS 是一種后處理的方法,在 REC 預測的基礎上來抑制不相關的區域。

 

2. The Proposed Method

 

Objective Function

對於 RES 來說,作者采用的是 ASPP decoder 來預測分割掩碼,計算像素級損失函數。

 

對於 REC 來說,作者添加了一個 regression layer 來預測置信度得分 和 BBox 的位置。

 

為了處理預測沖突的問題,作者這里提出利用 Consistenvy Energy Maximization (CEM) 機制來降低這種影響。

 

 

 

 

具體來說哦,給定 RES 和 REC 的注意力 tensors,即: $F_a^s, F_a^c$,作者將其映射為 two-order tensors:

 

然后,在 Ec 和 Es 上執行 softmax,以得到 REC 和 RES 在圖像中的能量分布,記為:Ec' , Es'。這兩者的元素表明了對應區域和給定表達之間的響應程度。為了最大化兩個任務之間的 co-energy,作者進一步計算了 inter-task correlation:

 

 

其中,小  f 是 F 的元素值。co-energy C 可以按照如下的方式進行計算:

 

其中,$\alpha_s, \alpha_c$ 是兩個正則化項,用於乘法不相關的響應,記為:

 

 

最終,CEM loss 可以構建為:

 

 

Adaptive Soft Non-Located Suppression: 

作者提出一種 soft post-processing 的方法來處理預測沖突問題,稱為:ASNLS。根據 REC 預測得出的 BBox,ASNLS 抑制不相關的區域,增強相關的區域。與現有的 hard processing,如 ROI Pooling, ROI Align,直接扣取對應 BBox 的特征不同,soft processing 可以獲得更好的容錯率。特別的,給定 RES 預測的 mask,O,以及 bbox b,在 O 中的每一個元素都可以通過如下的方式進行更新:

 

 

 

然后,更新后的 RES 結果 O 被二值化處理,以得到最終的 mask。這里,作者進一步對其進行了升級,得到了 adaptive version 的 soft-NLS,其中,更新因子可以根據 REC 的預測置信度得到。

給定置信度得分 p,$\alpha_{up},  \alpha_{dec}$ 可以通過如下的方式進行計算:

 

 

 

 

 

Overall Loss

MCN 總體的損失函數可以通過如下的方式進行計算:

 

 

 

Experimental Results

 

 

 

 

 

   


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM