什么是多模態機器學習?


什么是多模態機器學習?

首先,什么叫做模態(Modality)呢?

每一種信息的來源或者形式,都可以稱為一種模態。例如,人有觸覺,聽覺,視覺,嗅覺;信息的媒介,有語音、視頻、文字等;多種多樣的傳感器,如雷達、紅外、加速度計等。以上的每一種都可以稱為一種模態。

同時,模態也可以有非常廣泛的定義,比如我們可以把兩種不同的語言當做是兩種模態,甚至在兩種不同情況下采集到的數據集,亦可認為是兩種模態。

因此,多模態機器學習,英文全稱 MultiModal Machine Learning (MMML),旨在通過機器學習的方法實現處理和理解多源模態信息的能力。目前比較熱門的研究方向是圖像、視頻、音頻、語義之間的多模態學習。

多模態學習從1970年代起步,經歷了幾個發展階段,在2010后全面步入Deep Learning階段。

人其實是一個多模態學習的總和,所以也有”磚家“說了,多模態學習才是真正的人工智能發展方向。

本文將針對多模態學習在深度學習發面的研究方向和應用做相關介紹,主要參考了來自ACL 2017的《Tutorial on Multimodal Machine Learning》。

多模態學習的分類

多模態學習可以划分為以下五個研究方向:

  1. 多模態表示學習 Multimodal Representation
  2. 模態轉化 Translation
  3. 對齊 Alignment
  4. 多模態融合 Multimodal Fusion
  5. 協同學習 Co-learning

下面將針對這五大研究方向,逐一進行介紹。

多模態表示學習 Multimodal Representation

單模態的表示學習負責將信息表示為計算機可以處理的數值向量或者進一步抽象為更高層的特征向量,而多模態表示學習是指通過利用多模態之間的互補性,剔除模態間的冗余性,從而學習到更好的特征表示。主要包括兩大研究方向:聯合表示(Joint Representations)協同表示(Coordinated Representations)

  • 聯合表示將多個模態的信息一起映射到一個統一的多模態向量空間;
  • 協同表示負責將多模態中的每個模態分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關性約束(例如線性相關)。

聯合表示和協同表示對比圖

利用多模態表示學習到的特征可以用來做信息檢索,也可以用於的分類/回歸任務。下面列舉幾個經典的應用。

在來自 NIPS 2012 的 《Multimodal learning with deep boltzmann machines》一文中提出將 deep boltzmann machines(DBM) 結構擴充到多模態領域,通過 Multimodal DBM,可以學習到多模態的聯合概率分布。

單模態和多模態DBM對比圖

論文中的實驗通過 Bimodal DBM,學習圖片和文本的聯合概率分布 P(圖片,文本)。在應用階段,輸入圖片,利用條件概率 P(文本|圖片),生成文本特征,可以得到圖片相應的文本描述;而輸入文本,利用條件概率 P(圖片|文本),可以生成圖片特征,通過檢索出最靠近該特征向量的兩個圖片實例,可以得到符合文本描述的圖片。如下圖所示:

協同表示學習一個比較經典且有趣的應用是來自於《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models 》這篇文章。利用協同學習到的特征向量之間滿足加減算數運算這一特性,可以搜索出與給定圖片滿足“指定的轉換語義”的圖片。例如:

狗的圖片特征向量 - 狗的文本特征向量 + 貓的文本特征向量 = 貓的圖片特征向量 -> 在特征向量空間,根據最近鄰距離,檢索得到貓的圖片

轉化 Translation / 映射 Mapping

轉化也稱為映射,負責將一個模態的信息轉換為另一個模態的信息。常見的應用包括:

機器翻譯(Machine Translation):將輸入的語言A(即時)翻譯為另一種語言B。類似的還有唇讀(Lip Reading)語音翻譯 (Speech Translation),分別將唇部視覺和語音信息轉換為文本信息。

圖片描述(Image captioning) 或者視頻描述(Video captioning): 對給定的圖片/視頻形成一段文字描述,以表達圖片/視頻的內容。

語音合成(Speech Synthesis):根據輸入的文本信息,自動合成一段語音信號。

模態間的轉換主要有兩個難點,一個是open-ended,即未知結束位,例如實時翻譯中,在還未得到句尾的情況下,必須實時的對句子進行翻譯;另一個是subjective,即主觀評判性,是指很多模態轉換問題的效果沒有一個比較客觀的評判標准,也就是說目標函數的確定是非常主觀的。例如,在圖片描述中,形成怎樣的一段話才算是對圖片好的詮釋?也許一千個人心中有一千個哈姆雷特吧。

對齊 Alignment

多模態的對齊負責對來自同一個實例的不同模態信息的子分支/元素尋找對應關系。這個對應關系可以是時間維度的,比如下圖所示的 Temporal sequence alignment,將一組動作對應的視頻流同骨骼圖片對齊。類似的還有電影畫面-語音-字幕的自動對齊。

對齊又可以是空間維度的,比如圖片語義分割 (Image Semantic Segmentation):嘗試將圖片的每個像素對應到某一種類型標簽,實現視覺-詞匯對齊。

多模態融合 Multimodal Fusion

多模態融合(Multimodal Fusion )負責聯合多個模態的信息,進行目標預測(分類或者回歸),屬於 MMML 最早的研究方向之一,也是目前應用最廣的方向,它還存在其他常見的別名,例如多源信息融合(Multi-source Information Fusion)、多傳感器融合(Multi-sensor Fusion)。

按照融合的層次,可以將多模態融合分為 pixel level,feature level 和 decision level 三類,分別對應對原始數據進行融合、對抽象的特征進行融合和對決策結果進行融合。而 feature level 又可以分為 early 和 late 兩個大類,代表了融合發生在特征抽取的早期和晚期。當然還有將多種融合層次混合的 hybrid 方法。

融合層次示意圖

常見的機器學習方法都可以應用於多模態融合,下面列舉幾個比較熱門的研究方向。

視覺-音頻識別(Visual-Audio Recognition): 綜合源自同一個實例的視頻信息和音頻信息,進行識別工作。

多模態情感分析(Multimodal sentiment analysis): 綜合利用多個模態的數據(例如下圖中的文字、面部表情、聲音),通過互補,消除歧義和不確定性,得到更加准確的情感類型判斷結果。

手機身份認證(Mobile Identity Authentication): 綜合利用手機的多傳感器信息,認證手機使用者是否是注冊用戶。

多模態融合研究的難點主要包括如何判斷每個模態的置信水平、如何判斷模態間的相關性、如何對多模態的特征信息進行降維以及如何對非同步采集的多模態數據進行配准等。

若想了解傳統的機器學習方法在此領域的應用,推薦學習清華大學出版的《多源信息融合》(韓崇昭等著)一書。

協同學習 Co-learning

協同學習是指使用一個資源豐富的模態信息來輔助另一個資源相對貧瘠的模態進行學習。

比如遷移學習(Transfer Learning)就是屬於這個范疇,絕大多數邁入深度學習的初學者嘗試做的一項工作就是將 ImageNet 數據集上學習到的權重,在自己的目標數據集上進行微調。

遷移學習比較常探討的方面目前集中在領域適應性(Domain Adaptation)問題上,即如何將train domain上學習到的模型應用到 application domain。

遷移學習領域著名的還有零樣本學習(Zero-Shot Learning)一樣本學習(One-Shot Learning),很多相關的方法也會用到領域適應性的相關知識。

Co-learning 中還有一類工作叫做協同訓練(Co-training ),它負責研究如何在多模態數據中將少量的標注進行擴充,得到更多的標注信息。

通過以上應用我們可以發現,協同學習是與需要解決的任務無關的,因此它可以用於輔助多模態映射、融合及對齊等問題的研究。

結束語

到此為止,我們對多模態機器學習領域的研究方向和應用進行了一個大致的梳理,受限於篇幅,還有許多未涉及的研究問題。

有什么讀后感嗎?

也許你以前沒有聽過多模態學習(MMML)這個概念,讀了此文發現原來自己做的正是 MMML 一個分支;

也許你以前覺得 CV / NLP / SSP 才是人工智能的正統,讀了此文發現多學科交叉的 MMML 一樣可以玩 DL 溜得飛起;

也許你目前正苦於找不到研究的方向,讀了此文發現 MMML 打開了新的大門,原來有這么多的事情可以做。

多模態學習是一個目前熱度逐年遞增的研究領域,如果大家感興趣,歡迎留言反饋,后續我們會考慮推出幾個熱門 MMML 方向的經典or前沿論文、模型解析。

推薦幾篇入門綜述文獻

如果想入門 MMML 或者希望對該領域有初步了解,可以從以下幾篇綜述入手

【1】Atrey P K, Hossain M A, El Saddik A, et al. Multimodal fusion for multimedia analysis: a survey[J]. Multimedia systems, 2010, 16(6): 345-379.

【2】Ramachandram D, Taylor G W. Deep multimodal learning: A survey on recent advances and trends[J]. IEEE Signal Processing Magazine, 2017, 34(6): 96-108.

【3】Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM