【CVPR2020】MMTM: Multimodal Transfer Module for CNN Fusion


論文:https://arxiv.org/abs/1911.08670

代碼:https://github.com/haamoon/mmtm

多模態數據融合時,一般包括:early fusion, late fusion, intermediately 三種,如下圖所示。神經科學指出,mid-level feature fusion 有助於學習,但是當前方法仍大多使用 late fusion,這是因為多模態的數據往往因為 different or unaligned spatial dimensions,難以融合。另外一個原因是,單模態特征提取往往解決的較好,可以利用預訓練模型中的權重,而中間層融合需要改變網絡結構,因此預訓練的權重就無法使用了。

為了解決mid-level feature fusion的問題,作者提出了 multimodal transfer module (MMTM) ,可以 recalibrate the channel-wise features of different CNN streams. 該模塊結構如下圖所示,包括 squeeze 和 multimodal excitation 兩個步驟。

Squeeze: 使用全局池化把 feature map 壓縮為一維向量 \(S_A\)\(S_B\)

Multimodal excitation: A數據的通道維數為\(C\),B數據的通道維數為\(C'\),這一步需要生成兩個exictation signal, \(E_A\in\mathbb{R}^C\), \(E_B\in\mathbb{R}^{C'}\) ,達到下面的 gating mechnism:

\[\hat{A}=2\times\sigma(E_A)\odot A \]

\[\hat{B}=2\times\sigma(E_B)\odot B \]

首先將\(S_A\)\(S_B\) 建立一個聯合表達 \(Z\),通過全連接實現,然后使用兩個獨立的全連接層得到 \(E_A\)\(E_B\)。其中,\(Z\)的維度是 \((C+C')/4\)

該模塊很簡單,但是卻在 gesture recognition,audio-visual speech enhancement,以及 human action recognition 中取得了非常好的效果。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM