2020-WACV-Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval


一、背景

  图像-文本跨模态检索是一个具有挑战性的研究课题,当给定一个模态(图像或文本句子)的查询时,它的目标是从数据库中以另一个模态检索最相似的样本。这里的关键挑战是如何通过理解跨模式数据的内容和度量其语义相似性来匹配跨模式数据,特别是当跨模式数据中有多个对象时。

  早期的方法采用全局表示来表达整个图像和句子,忽略了局部细节。这些方法在只包含单个对象的简单的跨模态检索场景中工作得很好,但对于涉及复杂自然场景的更真实的情况并不令人满意。近年来的研究[12,11,7,8,17]注重检测图像和文本中目标的局部细节匹配,相对于以往的工作有了一定的改进,但这些方法忽略了多模态数据中对象之间的关系,而这正是图像-文本检索的关键所在。

 

 

 

 

二、贡献

  在图像-文本检索任务中,我们将两种方式下的对象和关系组织成场景图,如图1底部所示。通过引入可视场景图(VSG)和文本场景图(TSG)分别表示图像和文本,将传统的图文检索问题转化为两个场景图的匹配问题。

三、方法

  

 

  我们的场景图匹配(SGM)模型的目的是通过将输入的图像和文本句子分割成场景图来评估图像-文本对的相似性。SGM的框架如图2所示,它由两个网络分支组成。在可视化分支中,输入图像被表示为可视化场景图(VSG),然后被编码为可视化特征图(VFG)。同时,将其解析为文本场景图,然后在文本分支中编码为文本特征图。最后,从VFG和TFG中收集对象特征和关系特征,分别计算对象级和关系级的相似度得分

 

 

  在可视化场景图生成之后,我们设计了一个多模态图卷积网络(multimodal graph Convolutional Network, MGCN)来学习VSG上好的表示,该网络包括一个预先训练好的视觉特征提取器、一个标签嵌入层、一个多模态融合层和一个图卷积网络,如图3所示。

1、视觉特征提取器。预训练的视觉特征提取器用于将图像区域编码为特征向量,可以用于预训练的CNN网络或物体检测器(如Faster-RCNN[21])。

2、标签嵌入层。每个节点都有一个由视觉场景图生成器预测的单词标签,可以提供辅助的语义信息。

3、多模式融合层。在得到每个节点的视觉特征和标签特征后,需要将它们融合成统一的表示。从而生成多模态融合特征图

4、图卷积网络。gcn[32]是卷积神经网络,可以操作的图形结构,这是比cnn更灵活,只能工作在网格结构化数据。为了编码多模态融合特征图,我们采用m层GCN,并提出了一种新的更新机制,以不同的方式更新两种节点。关系节点从其邻近区域聚合信息进行更新,对象节点从自身进行更新,如图3中蓝色和黄色虚线箭头所示。

 

  与图像相似,自然语言句子也描述了许多物体及其关系。因此,图结构也适用于表示句子。我们将输入句子的单词组织成文本场景图(text scene graph, TSG),其中包含两种边,如图4所示。黑色箭头表示词序边缘,它根据句子中的词序将单词连接起来。棕色箭头表示语义关系边缘,它是由SPICE[1]解析的语义三胞胎构建的,比如“man-hold-baby”。由于不同的边,在图中形成不同类型的路径。由词序边连接的路径命名为词序路径。由语义关系边连接的路径称为语义关系路径

  与VSG的处理类似,设计了文本场景图编码器,用于从TSG中提取对象和关系特征,该TSG由字嵌入层、字级bi-GRU编码器和路径级biGRU编码器组成,如图4所示。字级bi-GRU编码器将沿着单词顺序路径对每个节点进行编码,然后在每个隐藏状态下生成带有上下文的对象级特性。由于语义关系边缘突破了句子语法结构的限制,路径级bi-GRU沿着语义关系路径编码后,得到了明确的关系级特征。

 
  为了度量两个编码图在不同形式下的相似度,我们需要一个相似函数。由于每个图中有两层特征,我们分别对它们进行匹配。

 

四、结论

  在这项工作中,我们提出了一个基于图形匹配的模型,用于包含各种对象的复杂场景下的图文检索。我们发现,局部细节图像-文本匹配不仅对象重要,而且对象之间的关系也很重要。为了捕获图像和文本中的对象和关系,我们分别将图像和文本表示为可视化场景图和文本场景图。然后设计了场景图匹配(SGM)模型,利用两个图形编码器从图中提取对象级特征和关系级特征,实现图像-文本匹配。由于明确地建模了关系信息,我们的方法在Flickr30k和MS COCO上的图像-文本检索实验中都优于目前的先进方法。更重要的是,定性的实验表明,我们的方法可以真正捕获的关系,有助于图像文字检索任务。


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM