Visual Semantic Reasoning for Image-Text Matching


Visual Semantic Reasoning for Image-Text Matching

2020-03-06 15:17:02

 

Paperhttps://arxiv.org/pdf/1909.02701.pdf 

Codehttps://github.com/KunpengLi1994/VSRN 

 

1. Background and Motivation

本文提出利用 GCN 的方法來推理圖像中的關系來提升 Image-Text matching 的性能。本文首先挖掘圖像中的顯著性區域,然后,顯著性區域檢測可以用 Bottom-Up attention 來實現,這和 人類的視覺系統是一致的。具體來說,這種 bottom-up attention 模型可以用 faster RCNN 來實現,然后構建這些顯著性物體之間的聯系,用 GCN 進行推理來生成具有 semantic relationship 的特征。

2. Learning Alignments with Visual Semantic Reasoning

算法的大致流程如下所示:

 

2.1. Image Representation by Bottom-Up Attention

 本文與 “Stacked Cross Attention for Image-Text Matching” 保持一致,也采用基於 faster RCNN 模型的 bottom-up attention 來得到圖像中的物體或者顯著性的區域。該模型是在 Visual Genomes dataset 上預訓練得到的。由於該模型是用於預測 instance classes 和 attribute classes,而不是 object classes,所以說,可以利用 rich semantic meaning 來幫助學習特征表示。對於每一個選中的區域 i,作者利用average pooling layer 來提取特征,得到 2048 維的特征。然后用一個 fc layer 來將 fi 轉換成一個 D維的 embedding:

然后 V = {v1, ... , vk} 被創建來表示每一個圖像,vi 代表圖像中的 object 或者 salient region。

 

2.2. Region Relationship Reasoning

重頭戲來了,作者也構建了不同物體之間的聯系,來進行全局信息的推理。具體來說,作者用 pairwise affinity 來構建他們之間的關系:

然后,構建了一個 graph $G_r = (V, E)$,其中 V 是檢測到的 regions 的集合,邊的集合 E 是根據 affinity matrix R 得到的。作者采用 GCN 在 fully-connected graph 上進行推理。每一個節點的響應是基於其近鄰得到的,作者在原始 GCN 的基礎上添加了殘差連接,即:

其中,Wg 是 GCN 層的權重矩陣。Wr 是殘差結構的權重矩陣。作者對 affinity matrix R 按照 row 進行歸一化。輸出的 V* 是 image region nodes 增強之后的表達。

 

2.3. Global Semantic Reasoning

基於上述帶有關系信息的 region features,作者進一步進行了全局語義推理來選擇具有判別性的信息,從而剔除掉不重要的信息,來得到整幅圖的最終表達。具體的,作者將 region features V* ={v1*, ... , vk*} 的特征依次輸入到 GRUs 模型中。在推理的過程中,整個場景的描述將會逐漸的增長和更新。在每一個推理步驟 i,一個更新 gate zi 分析了當前輸入的 region feature vi* 以及整幅圖像的描述,來決定更新多少 memory cell。更新門的計算過程如下:

其中,$\delta_z$ 是 sigmoid 激活函數。$W_z, U_z, b_z$ 是權重和偏置。

新增的 content 將會幫助增加整個場景的描述:

$r_i$ 和 update gate 的計算機制類似:

然后,當前時刻,整個場景 mi 的描述計算如下:

由於每一個 vi* 包含了全局推理信息,mi 的更新實際上依賴於 graph 拓撲結構,同時考慮了當前 local region 和 全局語義關系。作者將最后時刻的 memory cell 當做是整幅圖的表達。

 

2.4. Learning Alignments by Joint Matching and Generation

為了連接視覺和語言領域,作者利用基於 GRU 的文本編碼器將 text caption 映射到 D維的向量。然后,聯合優化 matching 和 generation 來對其文本 C 和 圖像 I。對於 matching 的部分,作者采用 hinge-based triplet loss:

該 hinge loss 由兩個部分組成,分別是 C和 I作為 queries。我們利用常規 inner product S(*)。對於 generation 的部分,學習到的視覺表達應該和 GT captions 保持一致。具體來說,作者采用了 sequence-to-sequence 模型來達到這個目標。所用到的損失函數為:

最終的 loss function 定義為這兩個目標函數的聯合優化:

 

 

3. Experiment

  

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM