标题:MBT:多模态融合的注意力瓶颈
来源:NeurIPS 2021[https://arxiv.org/abs/2107.00135]
代码:暂无
一、问题的提出
多模态视频分类任务
人类通过同时处理和融合来自视觉和音频等多种模态的高维输入来感知世界。目前的多模态任务存在着一定的问题:
CVPR2020《What makes training multi-modal classification networks hard?》
1. 多模态网络由于其容量的增加而常常容易出现过拟合。
2. 不同模态的过拟合和泛化速度不同,采用单一优化策略联合训练是次优的。
此外,某些模态比其他模态包含更多关于任务的信息;针对不同模态有专门的输入表示。
CV、NLP通常是特定于模态的,并且针对单模态基准进行了优化。由于不同模态输入的差异(RGB使用卷积进行处理、音频使用傅里叶分析来产生对数-mel谱图),因此通过集成独立的视觉和听觉神经网络来融合特征信息或者进行预测(后期融合)仍然是多模态视频分类的主要范式。
本文的作者提出了一种基于Transformer的视频RGB+音频融合的模型MBT,将“注意力瓶颈(Attention Bottlenecks)”用于多层模态融合。
补充:
Transformer已被证明在图像 (ViT ) 和视频分类 (ViViT ) 以及音频分类 (AST) 等领域具有不错的性能:
ViT:
ViViT:
AST:
将Transformer应用到多模态领域,由于这些模型能够处理可变长度的序列,因此可以直接将多模态patch的序列送到Transformer中。这种“早期融合”模型允许注意力在图像中的不同时空域之间自由建模,以及在音频频谱图中的频率和时间之间自由建模。
作者发现:
(1)在模型的所有层完全成对的注意力机制是不必要的,因为视频中的音频和RGB输入包含密集的、细粒度的信息,其中大部分是多余的。
(2)由于注意力机制具有和token序列长度相关的二次复杂度,这种模型无法很好地扩展到较长的视频。
为了缓解这种情况,作者在模型中提出了两种方法来限制注意力的流动。
(1)多模态学习中的一种常见方法——“中期融合”,即将跨模态流动限制在网络的后一层,前面的层采用单模态学习。
(2)本文的主要贡献点,是限制层内token之间的跨模态注意。核心思想是引入一小部分 “注意力瓶颈” 的潜在融合单元(如上图中的Bottleneck Fusion),层中的跨模态相互作用必须通过这些单元执行。作者证明了这种 “瓶颈” 结构优于其不受限制的版本,且计算成本较低。
二、主要思想
Multimodal Fusion Transformers
2.1 The ViT and AST architectures
基础网络:视觉领域的ViT和音频领域的AST
2.2 多模态情况下的扩展:三种Token融合策略
a. Fusion via Vanilla Self-Attention
普通的融合模型,仅由扩展到多模态输入的常规Transformer组成。
对于给定长度为t秒的视频片段,统一采样F个RGB帧,并将音频波形转换为谱图;之后用类似ViT中的方法,将帧和谱图转换成token,并将所有的token拼接在一起,成为一个序列。
RGB帧序列:
音频序列:
输入Token序列:
更新:
b. Fusion with Modality-specific Parameters
可以将上面的模型推广到每个模态拥有各自独立的参数,并利用注意力机制交互不同模态的信息:
Corss Transformer结构:针对输入$z_1$和$z_2$,采用了通用的交叉注意操作:
MCA的说明:
传统的Transformer结构:
其中,多头注意力机制:
$$MSA(X)=Attention(W^QX,W^KX,W^VX)$$
Corss Transformer中:
$$MCA(X,Y)=Attention(W^QX,W^KY,W^VY)$$
c. Fusion via Attention Bottlenecks
为了克服attention机制的平方复杂度,作者在输入序列中引入了B个瓶颈token
输入序列如下所示:
然后,用这些瓶颈token来限制模型中的所有跨模态注意力。对于第l层的Transformer,token计算如下:
在Transformer层中,只能通过瓶颈Token交换模态的信息。瓶颈Token更新了两次:视觉信息更新+音频信息更新。
本文提出的该模型的贡献:保持网络中的瓶颈Token数量远远小于每个模态的Token总数;因为所有的跨模态的注意流都必须通过这些单元进行信息交换,这些紧密的注意力瓶颈迫使模型压缩来自每个模态的信息,并且只共享必要的信息。通过实验显示,这增加或保持了多模态融合的性能,同时降低了计算复杂度。
2.3 何时融合: Early, Mid and Late
在大多数Transformer(如ViT)中,每一层都由相同的操作组成的。然而,多模态学习中的一个常见范式是让网络的浅层进行模态内进行的增强,网络的深层进行多模态信息的交互。
基于这样的思想,作者首先用$L_f$个标准的Self-Attention层来对模态内的token信息进行建模,然后再将所有的token进行拼接,再用剩下的$L-L_f$个层进行跨模态token信息的融合。
早期融合:$L_f=0$
晚期融合:$L_f=L$
中期融合:$0<L_f<L$
公式表示:
(4)下游任务:以分类为例
为了能够执行分类任务,需要将最后一层的两个CLS token输入到线性层,然后将Softmax之后的结果进行平均得到分类结果。
三、实验
任务:video classification
数据集:三个视频分类数据集——AudioSet、Epic-Kitchens-100、VGGSound
3.1 融合策略
两种方法:
单模态自注意力+多模态融合(使用瓶颈注意力)
单模态自注意力+多模态融合(使用交叉注意力)
结果:使用注意力瓶颈,性能(mAP)得到了改善或保持,而在$L_f$较低时,性能改善更为显著。
针对两种融合策略的计算量,使用少量的瓶颈Token(本次实验中B=4)在后期融合中增加了一点点的额外计算;对于其他中期融合以及早期融合,瓶颈注意力方法的性能基本保持不变;普通的交叉融合则有着不可忽略的计算成本。
3.2 相对于最先进方法的mAP改进
AudioSet:
Epic-Kitchens-100:
VGGSound:
各类数据集均取得SOTA。
3.3 和后期融合的对比
3.4 可解释性
展示了Audioset videos数据集上,本文方法和普通交叉注意力融合的可视化结果。
MBT的注意力侧重于视频中用于音频分类的语义显著区域,特别是那些产生或修改声音的运动区域,例如人类发出声音的嘴、钢琴上的指尖、手和乐器。通过可视化结果可以看出,MBT中的瓶颈进一步迫使注意力被定位到图像的较小区域(即左上方婴儿的嘴和右下方唱歌的女人的嘴)。融合结果更加准确,更具备可解释性。
四、总结
MBT架构将“注意力瓶颈”用于多层模态融合。与传统的自注意相比,MBT迫使不同模式之间的信息通过少量的瓶颈Token,要求模型在每个模态中学习最相关的信息,并且只共享必要的信息。这种策略在提高融合性能的同时降低了计算成本。