文献阅读_image capition_2020ECCV_Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks


Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

边看边写的。写晕乎了。。

摘要:

  当前视觉语言任务常用 大规模预训练模型+多模态表示(这里指image-text pair)。他们结合的比较暴力(图文简单拼接+self-attention机制),我们的核心idea就是引入了目标识别生成的tag 作为锚点降低了对齐难度。

结论:

  在六个视觉+语言的理解/生成任务上取得了state-of-the-art

1 Introduction:

  肯定大方法:Vision-Language pre-training (VLP)在vision-language(V+L)tasks上state-of-the-art(SoTA,ps:还没见过老外这么缩)

  前人不太行:

    1.结合比较粗暴:简单拼接图文,使用self-attention机制

    2.视觉作为输入的问题:可能过采样(ps:正样本过拟合),有噪音,以及模糊

  我们:

    1.引入目标检测的tag作为锚点,降低对齐的学习难度(main idea)

    2.使用(有词序列,一组目标标签和一组图像区域特征组成的)三位一体的训练样本

   

 

 

 

[

    PS:下面涉及到两个命题。1.图像主要(salient)对象的准确检测 2. 1中的对象常在text中被提及。他这里使用的语气是正向的表达,(motivated by& are often mentioned)    

      但细说的话这是两个hypothesis:1.目标识别准确率应该比较高了,但如何定义主要对象,这里可能涉及到一些的问答或者可控的事情。2.主要对象就要被提及么,逻辑不太通顺吧。

]

    3.首创性:锚点在NLP有应用但在VLP是首次。之前有人在V+Ltask中引入了锚点但是是针对增强图像区域的特征表示的

    4.contributions:提出VLP模型Oscar,在多个V+Lbenchmarks上创纪录,针对他们的main idea开展了广泛的分析和实验论证。

2 Background:

  

 

 

  定义一个N维的数据集为:  

  

 

  I for image and w for text sequence

  预训练的目的是以自监督方式训练一个针对图文对的跨模态表示方式,并且经过微调后可适用与多类下游任务

  当前VLP的限制在于input singular embeddings(单次还是奇异?不认识)的质量。

  作者指出当前的两个问题:

    1. 模糊:因为图像区域的重叠

    2. 缺少GT

 

3 Oscar Pre-training:

  受到人类通感的启发,开发了Oscar去在semantic level去寻找各模态中名的实(invariant)  

  

 

  input:

    Word-Tag-Image triple(w,q,v),这里好像说明了tag是以图像中检测出来的w构成的(?不确定

  alignment:

    word 和 tag 的对齐交给BERT模型负责(NLP 阅读理解方面18年里程碑,部分指标已超越人类)  图像中被检测出tag的区域会分配给更高的注意力权重

  生成标签和区域:

    给定一个有K个区域的图像,使用Faster R-CNN提取出(v',z)的视觉语义(visual semantic)作为位置敏感形区域特征向量(position-sensitive region feature vector)

    其中区域特征——v'是2048D 向量;区域位置——z是RD向量(R=4or6)

    之后通过线性映射转换为v向量以确保和word embedding 同维度

    与此同时,同一个Faster R-CNN对图像检测出一组高精度目标标签,对这组标签进行word embedding得到word sequence q

预训练目的:

  

 

 

 

   对(q,w,v)输入以两种解读,并基于此设计VLP模型。x是模态的角度旨在模态间区分。x‘是字典的角度旨在区分不同语义空间。

  A Dictionary View: Masked Token Loss.

      定义了一个discrete token sequence as h=[w,q],使用了Masked Token Loss (MTL) 。每个iteration中随机mask 15%的h,以token[MASK]代替。训练模型基于临近token和全部图像特征v通过最

      小化如下的公式来猜出[MASK]。

  

      作者补了一句with additional image information attended to help ground the learned word embeddings in the vision context.

  A Modality View: Contrastive Loss.

      这次的配对是h'=[q,v](也就是标签和图像放在一起作为视觉信息)。采样了一组polluted的q(50%概率以从数据集中随机采样到的tag sequence进行替换),被污染部分记为[CLS]。

      编码器的输出为(h',w)对这部分增加了一个FC层作为一个二分类器,预测是否含有表达原来的图片信息(y=1)。

   

   跨模态训练中,使用tag代替图像去调整BERT的word嵌入空间,使word更接近检测出来的tag而不是被污染的

 

  总的损失函数是简单相加,应该有改头

    

  Discussion:我们故意留了个简单相加的形式,与现存VLP的Loss比 我们的简单且更有效。

 

Pre-training Corpus:

  反正挺多的列在附录了。总共4.1m独立的图像和6.5m的三位一体数据。

Implementation details:

  跑了两个模型Oscar_B和Oscar_L

  BERT的隐藏层数H  base设置为768, lager设置为1024

  用于控制维度的线性映射矩阵W

  可训练的就这两个参数,使用了AdamW Optimizer

  OscarBis trained for at least 1.0M steps, with learning rate 5e−5and batch size 768. OscarLis trained for at least 900k steps, with learning rate 1e−5 and batch size 512. The sequence length of discrete tokens h and region features v are 35 and 50, respectively.

 

4 Adapting to V+L Tasks

  说了半天模型,现在说说任务。总共试验了七个下游任务包括五个理解任务和两个生成任务。下面的文章结构是introduce the tasks and our fine-tuning strategy

  Image-Text Retrieval 

   分成了图像检索和文本检索两个子任务——二分类问题。把一个对齐的图文对随机替换一个,交给分类器去预测是否对齐了。使用了binary classification loss。测试阶段根据概率得分生成查询的排序。

  Image Caption

    使用了seq2seq的模型,和pre-training一样输入为三位一体的数据,随机mask15%的caption,再根据相应的输出进行分类以预测token(英文有点晕)?生成caption时只能参考其之前的token去模拟单向生成过程,caption同时完全关注图像区域和目标标签反之不然' Note that all caption tokens will have full attentions to image regions and object tags but not the other way around. '(ps:是指有全局信息么?)。

    推理时将图像区域,目标标签和一个特殊token[CLS]编码作为输入,生成时对生成位置放[MASK]再根据输出可能性采样一个token 替换掉[MASK]并在后接一个[MASK],输出[STOP]时停止。使用了beam search(束搜索,类似一个几步内的贪婪或者说几步的决策树)(beam size=5)跑的COCO

  Novel Object Captioning (NoCaps)

    用了predicted Visual Genome and Open Images labels去生成tag序列,未初始化预训练

  VQA

    VQA v2.0, 三位一体改成了问题 标签 和图像区域,以多标签分类处理,Oscar的输出fed给任务别的线性分类器。

懒得写了调一下

  GQA

  NLVR2

5 Experimental Results & Analysis

  定义了个几个state-of-the-art

  SoTAs: 小模型在基于 Transformer 的 VLP 模型之前实现的最佳性能。

  SoTAb:与 BERT base 大小相似的 VLP 模型实现的最佳性能

  SoTAL:大小与 BERT large 相似的模型产生的最佳性能。其实to the best of our knowledge只有UNITER

    

  我们最优,基本提升还都不小,而且我们训练样本还少(6.5m 相较于UNITER 9.6m 以及LXMERT 9.18m)。SoTA甚至比不过我们的小模型

  定性来说

    下标可视化了COCO test set上习得的图文对 语义特征空间,并比较了使用/不适用tag进行预训练

      

 

    finding1 类间: 同一类的模态间距离减少,作者举了person 和 zebra(ps:如果让我来表述的话,我不会去说减少,而是说修正了一部分前面说到的图像采样缺点(重叠 噪音 过采样),像bus dog之类的目测是负优化)

 

     finding2 跨类:tag的辅助拉近了相近语义的距离,作者举了动物组,家具组,交通工具组(ps:泼个冷水,bus和train 图分的比较开但是语义粘连的有点厉害)

  

  作者标签的准确性和多样性提高了caption的细粒度。

  消融实验:

    1. Tag

    

 

    针对tag做了三任务三组的对比,在问答 检索 和caption ** no tags predicted tags 和GT tags进行试验

    结论当然是tag有助于多快好省到达收敛(ps:从图来看貌似caption的帮助最小)

    2.Attention Interaction

     在fine-tuning阶段对图文检索进行了实验。

    

 

      先说一下表:第二行为baseline,也就是w-v注意力未引入tag。第一行为引入了tag,第三行为未引入视觉信息。

      finding:1.tag引入有用 2. tag不适合作为特征。   1+2=Oscar是对的

    3. Tag in Pre-training

      在数据集visual genome和open image上训练了两个目标检测器

      

 

       

   

 

      finding: 1.我们再一次验证了要tag 2.VG版本略好于OI版本,解释为VG的对象集丰富(ps:这个很好理解啊,标签多才好caption,准确率还有BERT兜着)

6 Related Work

  VLP

  早期工作主要依赖于self-attention的Transformers去学习多模态下的联合表达。Oscar到了新的SoTA,拓宽了下游任务范围,降低了对齐难度提高了效率

  Object Tags

  (图像+*)早些时候图像+特征向量方法成为了图像理解的主流。但前人的做法或者简单的将tag作为输入,有的人做了图像+tag但没有和caption关联。我们提出的三位一体结构,提供了更完整的更多的信息量

  Multimodal Embeddings

  前期的工作证明在V+L task 中 联合嵌入是有助于进行图文对齐的。前人有用kernelized canonical correlation analysis把图文映射到同一空间做annotation和segmentation,image capiton和text-based image retrieval的,有人开创性的指出使用没标注的文本信息去识别视觉对象,并得到了进一步研究,证明了利用预训练的语言知识对语义对齐和跨模态迁移学习采样有效。 基于此我们利用预训练时丰富的word embedding信息,提高了模型泛化能力。

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM