Visual Semantic Reasoning for Image-Text Matching

本文轉載自查看原文 2020-03-06 23:22 1017 論文閱讀/ Vision and Language

Visual Semantic Reasoning for Image-Text Matching

2020-03-06 15:17:02

Paper: https://arxiv.org/pdf/1909.02701.pdf

Code: https://github.com/KunpengLi1994/VSRN

1. Background and Motivation:

本文提出利用 GCN 的方法來推理圖像中的關系來提升 Image-Text matching 的性能。本文首先挖掘圖像中的顯著性區域，然后，顯著性區域檢測可以用 Bottom-Up attention 來實現，這和人類的視覺系統是一致的。具體來說，這種 bottom-up attention 模型可以用 faster RCNN 來實現，然后構建這些顯著性物體之間的聯系，用 GCN 進行推理來生成具有 semantic relationship 的特征。

2. Learning Alignments with Visual Semantic Reasoning:

算法的大致流程如下所示：

2.1. Image Representation by Bottom-Up Attention:

本文與 “Stacked Cross Attention for Image-Text Matching ” 保持一致，也采用基於 faster RCNN 模型的 bottom-up attention 來得到圖像中的物體或者顯著性的區域。該模型是在 Visual Genomes dataset 上預訓練得到的。由於該模型是用於預測 instance classes 和 attribute classes，而不是 object classes，所以說，可以利用 rich semantic meaning 來幫助學習特征表示。對於每一個選中的區域 i，作者利用average pooling layer 來提取特征，得到 2048 維的特征。然后用一個 fc layer 來將 fi 轉換成一個 D維的 embedding：

然后 V = {v1, ... , vk} 被創建來表示每一個圖像，vi 代表圖像中的 object 或者 salient region。

2.2. Region Relationship Reasoning:

重頭戲來了，作者也構建了不同物體之間的聯系，來進行全局信息的推理。具體來說，作者用 pairwise affinity 來構建他們之間的關系：

然后，構建了一個 graph $G_r = (V, E)$，其中 V 是檢測到的 regions 的集合，邊的集合 E 是根據 affinity matrix R 得到的。作者采用 GCN 在 fully-connected graph 上進行推理。每一個節點的響應是基於其近鄰得到的，作者在原始 GCN 的基礎上添加了殘差連接，即：

其中，Wg 是 GCN 層的權重矩陣。Wr 是殘差結構的權重矩陣。作者對 affinity matrix R 按照 row 進行歸一化。輸出的 V* 是 image region nodes 增強之后的表達。

2.3. Global Semantic Reasoning:

基於上述帶有關系信息的 region features，作者進一步進行了全局語義推理來選擇具有判別性的信息，從而剔除掉不重要的信息，來得到整幅圖的最終表達。具體的，作者將 region features V* ={v1*, ... , vk*} 的特征依次輸入到 GRUs 模型中。在推理的過程中，整個場景的描述將會逐漸的增長和更新。在每一個推理步驟 i，一個更新 gate zi 分析了當前輸入的 region feature vi* 以及整幅圖像的描述，來決定更新多少 memory cell。更新門的計算過程如下：

其中，$\delta_z$ 是 sigmoid 激活函數。$W_z, U_z, b_z$ 是權重和偏置。

新增的 content 將會幫助增加整個場景的描述：

$r_i$ 和 update gate 的計算機制類似：

然后，當前時刻，整個場景 mi 的描述計算如下：

由於每一個 vi* 包含了全局推理信息，mi 的更新實際上依賴於 graph 拓撲結構，同時考慮了當前 local region 和全局語義關系。作者將最后時刻的 memory cell 當做是整幅圖的表達。

2.4. Learning Alignments by Joint Matching and Generation:

為了連接視覺和語言領域，作者利用基於 GRU 的文本編碼器將 text caption 映射到 D維的向量。然后，聯合優化 matching 和 generation 來對其文本 C 和圖像 I。對於 matching 的部分，作者采用 hinge-based triplet loss：

該 hinge loss 由兩個部分組成，分別是 C和 I作為 queries。我們利用常規 inner product S(*)。對於 generation 的部分，學習到的視覺表達應該和 GT captions 保持一致。具體來說，作者采用了 sequence-to-sequence 模型來達到這個目標。所用到的損失函數為：

最終的 loss function 定義為這兩個目標函數的聯合優化：

3. Experiment：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Stacked Cross Attention for Image-Text Matching 2020-WACV-Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval 論文閱讀筆記（六十五）【ECCV2018】：Deep Cross-Modal Projection Learning for Image-Text Matching 論文閱讀 | Bridging the Gap Between Relevance Matching and Semantic Matching for Short Text Similarity Modeling 論文閱讀筆記（六十六）【ICCV2019】：Adversarial Representation Learning for Text-to-Image Matching Coherent Semantic Attention for Image Inpainting Semantic Image Inpainting with Deep Generative Models Semantic Image Synthesis with Spatially-Adaptive Normalization 『論文筆記』Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning text matching(文本匹配) 相關資料總結