多模態數據融合時,一般包括:early fusion, late fusion, intermediately 三種,如下圖所示。神經科學指出,mid-level feature fusion 有助於學習,但是當前方法仍大多使用 late fusion,這是因為多模態的數據往往因為 different or unaligned spatial dimensions,難以融合。另外一個原因是,單模態特征提取往往解決的較好,可以利用預訓練模型中的權重,而中間層融合需要改變網絡結構,因此預訓練的權重就無法使用了。
為了解決mid-level feature fusion的問題,作者提出了 multimodal transfer module (MMTM) ,可以 recalibrate the channel-wise features of different CNN streams. 該模塊結構如下圖所示,包括 squeeze 和 multimodal excitation 兩個步驟。
Squeeze: 使用全局池化把 feature map 壓縮為一維向量 \(S_A\) 和 \(S_B\)。
Multimodal excitation: A數據的通道維數為\(C\),B數據的通道維數為\(C'\),這一步需要生成兩個exictation signal, \(E_A\in\mathbb{R}^C\), \(E_B\in\mathbb{R}^{C'}\) ,達到下面的 gating mechnism:
首先將\(S_A\) 和 \(S_B\) 建立一個聯合表達 \(Z\),通過全連接實現,然后使用兩個獨立的全連接層得到 \(E_A\)和\(E_B\)。其中,\(Z\)的維度是 \((C+C')/4\)。
該模塊很簡單,但是卻在 gesture recognition,audio-visual speech enhancement,以及 human action recognition 中取得了非常好的效果。