多模態文本分類技術


多模態文本分類技術

1. 多模態表示學習(Representation)

1.1 聯合表示(Joint Representation)

定義:將多個模態的信息一起映射到一個統一的多模態向量空間

論文:Multimodal learning with deep boltzmann machines, NIPS 2014

1.2 協同表示(Coordinated Representation)

定義:將多模態中的每個模態分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關性約束(例如線性相關)

論文:Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models (NIPS 2014)

2. 模特轉化(Translation)

定義:多模態轉化也可稱為映射 (Mapping),主要是將一個模態的信息轉化或映射為另一個模態的信息。

應用:

  • 機器翻譯(Machine Translation) 、唇讀(Lip Reading)和語音翻譯 (Speech Translation)
  • 圖片描述 (Image Captioning)與視頻描述(Video Captioning)
  • 語音合成(Speech Synthesis)

3. 模態對齊(Alignment)

定義:從來自同一個實例的兩個甚至多個模態中尋找子成份之間的關系和聯系。

研究方向:有顯式對齊,隱式對齊兩種。

相關任務:

  • 給定一張圖片和圖片的描述,找到圖中的某個區域以及這個區域在描述中對應的表述。
  • 圖像語義分割(Image Semantic Segmentation)

4.多模態融合(Fusion)

聯合多個模態的信息,進行目標預測(分類或者回歸),屬於 MMML 最早的研究方向之一,也是目前應用最廣的方向,它還存在其他常見的別名,例如多源信息融合(Multi-source Information Fusion)、多傳感器融合(Multi-sensor Fusion)。

分類:

  • Pixel level
  • Feature level
  • Decision level

按照融合的類型分類:

  • 數據級別融合
  • 判定級別融合
  • 組合融合

相關任務:

  • 視覺-音頻識別(Visual-Audio Recognition)

  • 多模態情感分析(Multimodal sentiment analysis)

  • 手機身份認證(Mobile Identity Authentication)

5. 協同學習(Co-learning)

通過利用資源豐富(比如數據量大)的模態的知識來輔助資源稀缺(比如較小數據)的模態建立模型。

根據數據形式划分:

  • Parallel(數據並行): Co-training, Transfer learning(預訓練模型)
  • Non-parallel(數據不並行): Transfer learning, Concept grounding, Zero-shot learning
  • Hybrid: Bridging

6. 文本分類應用

6.1 諷刺檢測

6.2 情感分類

6.3 情感分析

  • Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis. NAACL 2019
  • 論文解析https://www.cnblogs.com/taaccoo/p/13662595.html

6.4 假新聞識別

6.5 商品分類

  • Is a Picture Worth a Thousand Words? A Deep Multi-Modal Architecture for Product Classification in E-Commerce. AAAI 2018.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM