標題:MBT:多模態融合的注意力瓶頸
來源:NeurIPS 2021[https://arxiv.org/abs/2107.00135]
代碼:暫無
一、問題的提出
多模態視頻分類任務
人類通過同時處理和融合來自視覺和音頻等多種模態的高維輸入來感知世界。目前的多模態任務存在着一定的問題:
CVPR2020《What makes training multi-modal classification networks hard?》
1. 多模態網絡由於其容量的增加而常常容易出現過擬合。
2. 不同模態的過擬合和泛化速度不同,采用單一優化策略聯合訓練是次優的。
此外,某些模態比其他模態包含更多關於任務的信息;針對不同模態有專門的輸入表示。
CV、NLP通常是特定於模態的,並且針對單模態基准進行了優化。由於不同模態輸入的差異(RGB使用卷積進行處理、音頻使用傅里葉分析來產生對數-mel譜圖),因此通過集成獨立的視覺和聽覺神經網絡來融合特征信息或者進行預測(后期融合)仍然是多模態視頻分類的主要范式。
本文的作者提出了一種基於Transformer的視頻RGB+音頻融合的模型MBT,將“注意力瓶頸(Attention Bottlenecks)”用於多層模態融合。
補充:
Transformer已被證明在圖像 (ViT ) 和視頻分類 (ViViT ) 以及音頻分類 (AST) 等領域具有不錯的性能:
ViT:
ViViT:
AST:
將Transformer應用到多模態領域,由於這些模型能夠處理可變長度的序列,因此可以直接將多模態patch的序列送到Transformer中。這種“早期融合”模型允許注意力在圖像中的不同時空域之間自由建模,以及在音頻頻譜圖中的頻率和時間之間自由建模。
作者發現:
(1)在模型的所有層完全成對的注意力機制是不必要的,因為視頻中的音頻和RGB輸入包含密集的、細粒度的信息,其中大部分是多余的。
(2)由於注意力機制具有和token序列長度相關的二次復雜度,這種模型無法很好地擴展到較長的視頻。
為了緩解這種情況,作者在模型中提出了兩種方法來限制注意力的流動。
(1)多模態學習中的一種常見方法——“中期融合”,即將跨模態流動限制在網絡的后一層,前面的層采用單模態學習。
(2)本文的主要貢獻點,是限制層內token之間的跨模態注意。核心思想是引入一小部分 “注意力瓶頸” 的潛在融合單元(如上圖中的Bottleneck Fusion),層中的跨模態相互作用必須通過這些單元執行。作者證明了這種 “瓶頸” 結構優於其不受限制的版本,且計算成本較低。
二、主要思想
Multimodal Fusion Transformers
2.1 The ViT and AST architectures
基礎網絡:視覺領域的ViT和音頻領域的AST
2.2 多模態情況下的擴展:三種Token融合策略
a. Fusion via Vanilla Self-Attention
普通的融合模型,僅由擴展到多模態輸入的常規Transformer組成。
對於給定長度為t秒的視頻片段,統一采樣F個RGB幀,並將音頻波形轉換為譜圖;之后用類似ViT中的方法,將幀和譜圖轉換成token,並將所有的token拼接在一起,成為一個序列。
RGB幀序列:
音頻序列:
輸入Token序列:
更新:
b. Fusion with Modality-specific Parameters
可以將上面的模型推廣到每個模態擁有各自獨立的參數,並利用注意力機制交互不同模態的信息:
Corss Transformer結構:針對輸入$z_1$和$z_2$,采用了通用的交叉注意操作:
MCA的說明:
傳統的Transformer結構:
其中,多頭注意力機制:
$$MSA(X)=Attention(W^QX,W^KX,W^VX)$$
Corss Transformer中:
$$MCA(X,Y)=Attention(W^QX,W^KY,W^VY)$$
c. Fusion via Attention Bottlenecks
為了克服attention機制的平方復雜度,作者在輸入序列中引入了B個瓶頸token
輸入序列如下所示:
然后,用這些瓶頸token來限制模型中的所有跨模態注意力。對於第l層的Transformer,token計算如下:
在Transformer層中,只能通過瓶頸Token交換模態的信息。瓶頸Token更新了兩次:視覺信息更新+音頻信息更新。
本文提出的該模型的貢獻:保持網絡中的瓶頸Token數量遠遠小於每個模態的Token總數;因為所有的跨模態的注意流都必須通過這些單元進行信息交換,這些緊密的注意力瓶頸迫使模型壓縮來自每個模態的信息,並且只共享必要的信息。通過實驗顯示,這增加或保持了多模態融合的性能,同時降低了計算復雜度。
2.3 何時融合: Early, Mid and Late
在大多數Transformer(如ViT)中,每一層都由相同的操作組成的。然而,多模態學習中的一個常見范式是讓網絡的淺層進行模態內進行的增強,網絡的深層進行多模態信息的交互。
基於這樣的思想,作者首先用$L_f$個標准的Self-Attention層來對模態內的token信息進行建模,然后再將所有的token進行拼接,再用剩下的$L-L_f$個層進行跨模態token信息的融合。
早期融合:$L_f=0$
晚期融合:$L_f=L$
中期融合:$0<L_f<L$
公式表示:
(4)下游任務:以分類為例
為了能夠執行分類任務,需要將最后一層的兩個CLS token輸入到線性層,然后將Softmax之后的結果進行平均得到分類結果。
三、實驗
任務:video classification
數據集:三個視頻分類數據集——AudioSet、Epic-Kitchens-100、VGGSound
3.1 融合策略
兩種方法:
單模態自注意力+多模態融合(使用瓶頸注意力)
單模態自注意力+多模態融合(使用交叉注意力)
結果:使用注意力瓶頸,性能(mAP)得到了改善或保持,而在$L_f$較低時,性能改善更為顯著。
針對兩種融合策略的計算量,使用少量的瓶頸Token(本次實驗中B=4)在后期融合中增加了一點點的額外計算;對於其他中期融合以及早期融合,瓶頸注意力方法的性能基本保持不變;普通的交叉融合則有着不可忽略的計算成本。
3.2 相對於最先進方法的mAP改進
AudioSet:
Epic-Kitchens-100:
VGGSound:
各類數據集均取得SOTA。
3.3 和后期融合的對比
3.4 可解釋性
展示了Audioset videos數據集上,本文方法和普通交叉注意力融合的可視化結果。
MBT的注意力側重於視頻中用於音頻分類的語義顯著區域,特別是那些產生或修改聲音的運動區域,例如人類發出聲音的嘴、鋼琴上的指尖、手和樂器。通過可視化結果可以看出,MBT中的瓶頸進一步迫使注意力被定位到圖像的較小區域(即左上方嬰兒的嘴和右下方唱歌的女人的嘴)。融合結果更加准確,更具備可解釋性。
四、總結
MBT架構將“注意力瓶頸”用於多層模態融合。與傳統的自注意相比,MBT迫使不同模式之間的信息通過少量的瓶頸Token,要求模型在每個模態中學習最相關的信息,並且只共享必要的信息。這種策略在提高融合性能的同時降低了計算成本。