本文轉載自查看原文 2021-04-22 19:32 1056 計算機視覺/ 深度學習/ 自然語言處理

多模態文本分類技術

1. 多模態表示學習（Representation）

定義：將多個模態的信息一起映射到一個統一的多模態向量空間

論文：Multimodal learning with deep boltzmann machines, NIPS 2014

定義：將多模態中的每個模態分別映射到各自的表示空間，但映射后的向量之間滿足一定的相關性約束（例如線性相關）

論文：Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)

定義：多模態轉化也可稱為映射 (Mapping)，主要是將一個模態的信息轉化或映射為另一個模態的信息。

應用：

定義：從來自同一個實例的兩個甚至多個模態中尋找子成份之間的關系和聯系。

研究方向：有顯式對齊，隱式對齊兩種。

相關任務：

聯合多個模態的信息，進行目標預測（分類或者回歸），屬於 MMML 最早的研究方向之一，也是目前應用最廣的方向，它還存在其他常見的別名，例如多源信息融合（Multi-source Information Fusion）、多傳感器融合（Multi-sensor Fusion)。

分類：

按照融合的類型分類：

相關任務：

通過利用資源豐富（比如數據量大）的模態的知識來輔助資源稀缺（比如較小數據）的模態建立模型。

根據數據形式划分：

Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model. ACL 2019
論文來源：ACL 2019

論文鏈接：https://www.aclweb.org/anthology/P19-1239/

關鍵詞：情感分析；圖文；反諷刺識別

論文解讀：https://www.pianshen.com/article/35901009638/

Contextual Inter-modal Attention for Multi-modal Sentiment Analysis. ACL 2018
github地址：https://github.com/soujanyaporia/contextual-multimodal-fusion
鏈接：https://pan.baidu.com/s/1bNsgWInUlG2-M88PSXGcPQ
提取碼：uk6m
論文解讀https://blog.csdn.net/ningmengshuxiawo/article/details/109141253

Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis. NAACL 2019
論文解析https://www.cnblogs.com/taaccoo/p/13662595.html

EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection. KDD 2018
論文來源：KDD 2018

論文鏈接：https://doi.org/10.1145/3219819.3219903

代碼鏈接：https://github.com/yaqingwang/EANN-KDD18

關鍵詞：多模態（圖像+文本）；對抗神經網絡；假新聞檢測

論文解讀：https://www.pianshen.com/article/57871580780/

Is a Picture Worth a Thousand Words? A Deep Multi-Modal Architecture for Product Classification in E-Commerce. AAAI 2018.

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 技術積累－－常用的文本分類的特征選擇算法文本分類實戰基於paddlepaddle的文本分類文本分類概述 sklearn 基本的文本分類文本分類與SVM CNN文本分類 weka 文本分類（1） NLP文本分類文本分類TextCNN