【CVPR2020】MMTM: Multimodal Transfer Module for CNN Fusion

本文轉載自查看原文 2021-01-26 14:44 319 論文推介

論文：https://arxiv.org/abs/1911.08670

代碼：https://github.com/haamoon/mmtm

多模態數據融合時，一般包括：early fusion, late fusion, intermediately 三種，如下圖所示。神經科學指出，mid-level feature fusion 有助於學習，但是當前方法仍大多使用 late fusion，這是因為多模態的數據往往因為 different or unaligned spatial dimensions，難以融合。另外一個原因是，單模態特征提取往往解決的較好，可以利用預訓練模型中的權重，而中間層融合需要改變網絡結構，因此預訓練的權重就無法使用了。

為了解決mid-level feature fusion的問題，作者提出了 multimodal transfer module (MMTM) ，可以 recalibrate the channel-wise features of different CNN streams. 該模塊結構如下圖所示，包括 squeeze 和 multimodal excitation 兩個步驟。

Squeeze: 使用全局池化把 feature map 壓縮為一維向量 \(S_A\) 和 \(S_B\)。

Multimodal excitation: A數據的通道維數為\(C\)，B數據的通道維數為\(C'\)，這一步需要生成兩個exictation signal， \(E_A\in\mathbb{R}^C\), \(E_B\in\mathbb{R}^{C'}\) ，達到下面的 gating mechnism:

\[\hat{A}=2\times\sigma(E_A)\odot A \]

\[\hat{B}=2\times\sigma(E_B)\odot B \]

首先將\(S_A\) 和 \(S_B\) 建立一個聯合表達 \(Z\)，通過全連接實現，然后使用兩個獨立的全連接層得到 \(E_A\)和\(E_B\)。其中，\(Z\)的維度是 \((C+C')/4\)。

該模塊很簡單，但是卻在 gesture recognition，audio-visual speech enhancement，以及 human action recognition 中取得了非常好的效果。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 CVPR2020論文解讀：CNN合成的圖片鑒別論文閱讀筆記（二十九）【CVPR2020】：Cross-modality Person re-identiﬁcation with Shared-Speciﬁc Feature Transfer CVPR2020有開源代碼的圖像分割論文 CVPR2020論文解讀：OCR場景文本識別 CVPR2020論文解析：視頻語義檢索實時實例分割的Deep Snake：CVPR2020論文點評 CVPR2020：三維實例分割與目標檢測 CVPR2020：點雲分類的自動放大框架PointAugment 圖像分割 | Context Prior CPNet | CVPR2020 cvpr2020 | 圖像增強與恢復論文盤點