多模態文本分類技術
1. 多模態表示學習(Representation)
1.1 聯合表示(Joint Representation)
定義:將多個模態的信息一起映射到一個統一的多模態向量空間
論文:Multimodal learning with deep boltzmann machines, NIPS 2014
1.2 協同表示(Coordinated Representation)
定義:將多模態中的每個模態分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關性約束(例如線性相關)
論文:Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)

2. 模特轉化(Translation)
定義:多模態轉化也可稱為映射 (Mapping),主要是將一個模態的信息轉化或映射為另一個模態的信息。
應用:
- 機器翻譯(Machine Translation) 、唇讀(Lip Reading)和語音翻譯 (Speech Translation)
- 圖片描述 (Image Captioning)與視頻描述(Video Captioning)
- 語音合成(Speech Synthesis)
3. 模態對齊(Alignment)
定義:從來自同一個實例的兩個甚至多個模態中尋找子成份之間的關系和聯系。
研究方向:有顯式對齊,隱式對齊兩種。

相關任務:
- 給定一張圖片和圖片的描述,找到圖中的某個區域以及這個區域在描述中對應的表述。
- 圖像語義分割(Image Semantic Segmentation)


4.多模態融合(Fusion)
聯合多個模態的信息,進行目標預測(分類或者回歸),屬於 MMML 最早的研究方向之一,也是目前應用最廣的方向,它還存在其他常見的別名,例如多源信息融合(Multi-source Information Fusion)、多傳感器融合(Multi-sensor Fusion)。
分類:
- Pixel level
- Feature level
- Decision level

按照融合的類型分類:
- 數據級別融合
- 判定級別融合
- 組合融合

相關任務:
-
視覺-音頻識別(Visual-Audio Recognition)

-
多模態情感分析(Multimodal sentiment analysis)

-
手機身份認證(Mobile Identity Authentication)

5. 協同學習(Co-learning)
通過利用資源豐富(比如數據量大)的模態的知識來輔助資源稀缺(比如較小數據)的模態建立模型。
根據數據形式划分:
- Parallel(數據並行): Co-training, Transfer learning(預訓練模型)
- Non-parallel(數據不並行): Transfer learning, Concept grounding, Zero-shot learning
- Hybrid: Bridging

6. 文本分類應用
6.1 諷刺檢測
-
Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model. ACL 2019
-
論文來源:ACL 2019
論文鏈接:https://www.aclweb.org/anthology/P19-1239/
關鍵詞:情感分析;圖文;反諷刺識別

-
Towards Multimodal Sarcasm Detection (An Obviously Perfect Paper)
-
論文來源:ACL 2019
論文鏈接:https://arxiv.org/pdf/1906.01815v1.pdf
github地址:https://github.com/soujanyaporia/MUStARD
關鍵詞:反諷刺識別
6.2 情感分類
- Contextual Inter-modal Attention for Multi-modal Sentiment Analysis. ACL 2018
- github地址:https://github.com/soujanyaporia/contextual-multimodal-fusion
鏈接:https://pan.baidu.com/s/1bNsgWInUlG2-M88PSXGcPQ
提取碼:uk6m - 論文解讀https://blog.csdn.net/ningmengshuxiawo/article/details/109141253

6.3 情感分析
- Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis. NAACL 2019
- 論文解析https://www.cnblogs.com/taaccoo/p/13662595.html

6.4 假新聞識別
-
Exploiting Multi-domain Visual Information for Fake News Detection. ICDM 2019
-
論文來源:ICDM 2019
論文鏈接:https://arxiv.org/abs/1908.04472
關鍵詞:假新聞檢測;圖像;頻域;像素域;CNN;RNN;attention

-
EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection. KDD 2018
-
論文來源:KDD 2018
論文鏈接:https://doi.org/10.1145/3219819.3219903
代碼鏈接:https://github.com/yaqingwang/EANN-KDD18
關鍵詞:多模態(圖像+文本);對抗神經網絡;假新聞檢測

6.5 商品分類
- Is a Picture Worth a Thousand Words? A Deep Multi-Modal Architecture for Product Classification in E-Commerce. AAAI 2018.

