Multimodal Machine Learning:A Survey and Taxonomy 綜述閱讀筆記


該筆記基於:Multimodal Machine Learning:A Survey and Taxonomy

  • 該論文是一篇對多模態機器學習領域的總結和分類,且發表於2017年,算是相當新的綜述了。老師在課上推薦閱讀,我花了三天大體看了一邊,其中有很多實際的方法或者技術對我來說是全新的領域,也是未來學習的方向,但是對這個領域和其想解決的問題有了大致的了解。記錄如下:

關鍵名詞解釋:

  1. Modality:A particular mode in which something exists or is experienced or expressed. 中文釋義為模態或形態。一個事物存在(被體驗/被表達)的一種特定的方式。如一只貓,能被看見,圖像是模態;能被聽見,聲音是模態;能被觸摸,它身上的皮毛紋理是一種模態;某些人可以通過氣味辨別自己的貓,那么氣味是模態。模態之間大都是異質性的(heterogeneity)。
  2. Multimodal:多模態,顧名思義,包含了多種模態。如果一個研究問題或者數據集包含了多個上述的模態時,也可以被稱為multimodal。

目的&目標:

  1. 為了使人工智能進一步加強對我們周邊事物的理解,它需要具備解釋多模態信號的能力。(因為我們就身處在一個多模態的環境中,接收並處理着大量多模態信號)
  2. 多模態機器學習致力於搭建能夠處理和連接多模態信息的模型。“Multimodal machine learning aims to build models that can process and relate information from multiple modalities”

面臨的挑戰(Challenges):

一個領域的挑戰是對這個領域所研究的問題和解決方案的概括,舉個例子,比如機器視覺中有一個挑戰是“遮擋”,這意味着,在面臨一個實際計算機視覺問題時,你需要考慮遮擋對你的任務是否有影響,研究對象被遮擋了怎么解決,現有的解決方案是否能滿足你的需求,你是否需要改進已有方案。以下是多模態ML所面臨的挑戰:

  1. 表征(Representation
  2. 翻譯(Translation
  3. 對齊(Alignment
  4. 融合(Fusion
  5. 聯合學習(Co-learning

下圖是綜述中給出的各應用涉及到的挑戰

 

表征:

表征也可以理解為表示,即試圖通過各模態的信息找到某種對多模態信息的統一表示。當然,在計算機領域,一般都會是一個向量,但維度、各維度的具體值能否具備好的性質就成了關鍵。那么什么是好的性質呢?這需要具體任務具體分析,一個簡單的例子,如果做的是多模態信息檢索(就是比如百度搜索“在捉老鼠的貓”,能得到一系列圖片和視頻),學習出的視頻、圖片、文本的表征(向量)的相似性非常重要,來自同一個體的不同模態信息的表征(向量)間應具備更高的相似程度。

  1.  來自綜述中的定義:“we use the term feature and representation interchangeably, with each referring to a vector or tensor representation of an entity, be it an image, audio sample, individual word, or a sentence. A multimodal representation is a representation of data using information from multiple such entities. 
  2. 表征是一個非常基礎的任務,好的表征能極大的提高模型的表現。
  3. 表征任務的困難點:如何結合異質性的來源的數據,比如文字是符號性的,圖片是一個RGB矩陣,視頻是時序的RGB矩陣,聲音需要采樣成一個一位數組;如何處理不同級別的噪音,原因是不同模態產生的噪聲是不同的;如何處理數據缺失的問題
  4. 好的表征應具備的性質:
    • 平滑 smoothness, 可以類比一下自然語言處理中語言模型的平滑
    • 時序和空間一致性 temporal and spatial coherence
    • 稀疏性 sparsity
    • 自然聚類 natural clustering(我不太確定怎么翻譯,暫時這樣)
    • 在表征空間的相似性應能夠反映出表征所對應的概念的相似性 similarity in the representation space should reflect the similarity of the corresponding concepts
    • 即使在某些模態數據缺失的情況下,這種多模態的表征依舊能夠輕松獲得  the representation should be easy to obtain even in the absence of some modalities
    • 應能夠在給出被觀察到的其他模態的數據后,填補出缺失的模態數據 ,it should be possible to fill-in missing modalities given the observed ones
  5. 兩種主要的表征思路
    • Joint representations
    • Coordinated representations
  6. 表征技術一覽表,其中[#]是綜述中引用的論文編號

翻譯:

  1.  實際上,也可以理解為映射(mapping)。MMML很大一部分研究專注於將一種模態數據翻譯(映射)為另一種模態數據。即,任務為給出一個實體的一個模態,需要生成該實體的另一模態。例如給出一段人說話的臉部特寫視頻(無聲音),生成人說話的聲音信號。又比如,給定一張照片,生成對照片的描述。
  2. 技術分類
    • 基於例子的 example-based
    • 生成式的 generative
    • 簡單的理解,測試階段,example-based是需要字典的,而生成式是不需要字典的,它通過數據學習到兩個模態潛在的映射關系。
  3. 翻譯任務面臨的困難點
    • 非常難於評估,因為這類任務沒有標准答案,答案通常非常開放和主觀。這其實也是機器翻譯面臨的問題。
  4. 為了解決評估困難,提出了VQA(Visual question-answering)任務。然而它也有問題,例如特定問題的歧義性,回答和問題偏置(ambiguity of certain questions and answers and question bias)。
  5. 技術和實際應用一覽表:

對齊:

  1. 從兩個甚至多個模態中尋找事物子成份之間的關系和聯系。比如給定一張圖片和圖片的描述,找到圖中的某個區域以及這個區域在描述中對應的表述。又比如給定一個美食制作視頻和對應的菜譜,實現菜譜中的步驟描述與視頻分段的對應。
  2. 對齊分為兩類:顯式對齊和隱式對齊。顯式對齊即應用的主要任務就是對齊,而隱式對齊是指應用在完成主要任務時需要用到對齊的技術。
  3. 顯式對齊的技術方法分類
    • 無監督方法 Unsupervised
    • (弱)監督方法 (Weakly)Supervised
  4. 隱式對齊的技術方法分類
    • 圖模型 Graphical models
    • 神經網絡 Neural networks ----- 綜述中尤其提到attention機制
  5. 對齊任務的困難點
    • 很少有顯式對齊標注的數據集
    • 很難建模不同模態之間相似度計算
    • 存在多個可能的對齊方案並且不是一個模態的所有元素在另一個模態中都存在對應
  6. 技術和實際應用一覽表

融合:

融合是MMML最早的關注點之一。

  1. 多模態融合指從多個模態信息中整合信息來完成分類或回歸任務。“multimodal fusion is the concept of integrating information from multiple modalities with the goal of predicting an outcome measure: a class (e.g., happy vs. sad) through classification, or a continuous value (e.g., positivity of sentiment) through regression.”融合還有更寬泛的定義,而綜述中的定義的融合,是指任務在最后預測並以預測輸出值為目的時才進行多模態整合。在深度神經網絡方法下,融合和表征兩個任務是很難區分的。但在圖模型以及基於核的方法中比較好區分。(我暫時也沒法解釋這一段,需要進一步研究)
  2. 融合的價值
    • 在觀察同一個現象時引入多個模態,可能帶來更健壯(robust)的預測
    • 接觸多個模態的信息,可能讓我們捕捉到互補的信息(complementary information),尤其是這些信息在單模態下並不“可見”時
    • 一個多模態系統在缺失某一個模態時依舊能工作
  3. 多模態融合有兩大類:無模型 model-agnostic / 基於模型 model-based
  4. model-agnostic:不直接依賴於某個特定的機器學習算法
    • 進一步分為early\late\hybrid fusion
    • early fusion,也稱為feature-based,基於特征。通常是在各模態特征被抽取后就進行融合,通常只是簡單的連接他們的表征,也就是joint representation,直接連接多個向量。並使用融合后的數據進行模型訓練,相比之后兩種在訓練上更為簡單。
    • late fusion,也稱為decision-based,基於決策的。該方法在各個模態做出決策后才進行融合,得出最終的決策。常見的機制有平均(averaging)、投票(voting schemes)等等。這種方法中,各模態可以使用不同的模型來訓練,帶來更多的便利性。
    • hybrid fusion,一種嘗試結合early fusion和late fusion優勢的方法。
  5. model-based:顯式的在構造中完成融合
    • Multiple Kernel learning(MKL),多核學習
    • Graphical models,圖模型
    • Neural Networks,神經網絡
    • 神經網絡在近期成為解決融合問題非常流行的方案,然而圖模型以及多核學習依舊被使用,尤其是在有限的訓練數據和模型可解釋性非常重要的情況下。
  6. 融合任務的困難點:
    • 信號可能並不是時序對齊的(temporally aligned)。很可能是密集的連續信號和稀疏的事件(比如一大段視頻只對應一個詞,然后整個視頻只對應稀少的幾個詞)。
    • it is difficult to build models that exploit supplementary and not only complementary information(翻譯不出來,綜述在最開始也提到過supplementary和complementary是兩種模態間的關系)
    • 每一個模態在不同的時間點可能表現出不同的形式和不同等級的噪聲
  7. 技術和實際應用一覽表

聯合學習:

  1. 聯合學習的目的是通過利用資源豐富(比如數據量大)的模態的知識來輔助資源稀缺(比如較小數據)的模態建立模型。
  2. 聯合學習時任務獨立的(task independent)並可以用於提升融合、翻譯和對齊任務中的模型。
  3. 聯合學習中,輔助模態(helper modality)通常只參與模型的訓練過程,並不參與模型的測試使用過程。即使用時,模型輸入並不需要輔助模態的數據。
  4. 聯合學習的分類是基於訓練資源(數據)形式划分的,下圖的文字部分解釋得很清楚,並在分類后記錄各分類涉及的技術。
    • parallel:Co-training\Transfer learning
    • non-parallel:Transfer learning\Concept grounding(概念接地)\Zero shot learning
    • hybrid:Bridging
  5. 技術和實際應用一覽表


接下來可能會針對一兩個我感興趣的挑戰和具體應用,閱讀相應論文並嘗試復現(雖然很可能失敗或者需要學習大量的知識),如果你對MMML感興趣,歡迎繼續關注我的博客。

Plus Ultra


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM