多模態數據融合算法研究(Research on Multimodal Data Fusion Methods)張亮


摘要

1.1、研究背景與意義

多模態數據:同一個對象,描述的方式不同(視角或領域不同),把描述這些數據的每一個領域或者視角叫做一個模態(Modality)

  eg:在視頻分析中,視頻可以分解為音頻、圖像、字幕等多模態信息。每個圖片又可以表示成強度或者灰度、紋理等不同模態特征。

模態間的關聯性:每個模態能為其余模態提供一定的信息,即模態之間存在一定的關聯性。對不同模態數據進行同等處理或對所有模態特征進行簡單的連接整合不能保證挖掘任務的有效性。

  多模態學習的主要目的:通過不同特征集的互補融合,聯合學習各模態數據的潛在共享信息,進而提升數據任務的有效性。

現有的多模態數據融合分析方法:

  1、基於階段的融合算法:在數據挖掘任務的不同階段使用不同的模態數據完成相應的融合分析。(可做先驗算法)

  特點:不需要模態數據間的一致性(即不同模態數據間處於松耦合)

  eg:1、區域圖划分與區域圖構建(模態:路網和出租車軌跡)。2、好友推薦系統(模態:空間軌跡數據和空間點靜態分類數據)

    

  2、基於特征的融合算法:從不同的模態數據原始特征中學習到新的融合特征,然后利用學習到的新的融合特征完成分類、預測等任務。(將每個特征當做實數或分類值,而不關注每個特征的具體意義)

    2.1、最早的特征融合算法,直接將所有模態特征進行串聯融合(多模態數據的屬性高維性問題來源於此)。

    缺點:1、不同模態的表示、分布和密度可能不同,簡單的屬性連接會忽略模態特有的統計屬性和模態間的關系。2、產生數據冗余與依賴

    解決方法:

      傳統手工特征:在目標函數中添加稀疏規則化因子控制融合特征的冗余,在模型的訓練中將冗余特征的權重近似分配為零。

      深度神經網絡:學習得到數據的多層表示與抽象,進而將數據轉換成深度網絡的高層抽象特征
        

 

 

  3、基於語義的融合算法:理解每個模態的數據含義及不同模態特征之間的關系,在數據融合過程中利用人類思考問題的方式抽象不同模態的語義含義完成跨模態數據融合。
  現有的基於語義的融合算法大致分為:

  3.1、共訓練方法:通過輪流訓練使得兩個模態數據的協同度最大。
    三個需求(假設):1、每個模態有充分的數據;2、基於共生特征兩個模態的目標函數都能以較高概率預測到相同的數據類標簽;3、給定類標簽,模態間條件獨立。

  3.2、多核學習方法:

    利用預定義的一組核函數學習一個基於核函數的優化的線性或非線性組合。
    

  3.3、子空間學習方法:

    假設所以模態均可以投影到同一語義共享子空間,在子空間內可以完成聚類、分類等數據挖掘任務。(共享子空間的特征維度小於任何一個模態數據維度(維度災難))

    

    1、無監督學習:

      2.1、利用典型相關分析(CAA)最大化兩個模態之間的相關性,學習得到最大相關子空間並輸出每個模態對應的投影矩陣

      2.2、基於核CCA(KCCA)的多模態共享子空間學習算法(非線性改進算法)。該算法通過非線性轉化將數據點映射到高維數據空間,然后在利用線性CCA完成子空間的學習

    2、基於矩陣分解的算法

    3、基於高斯過程、譜嵌入和無向圖模型

  3.4、概率依賴方法:

    概率模型。能夠彌補不同模態數據的語義偏差

  3.5、遷移學習方法: 

    遷移學習能夠通過不同域(不同特征空間、特征分布)的有效融合,完成數據知識的跨域遷移分析。

提出來現階段多模態融合面臨的4個問題,然后敘述對於這4個問題,目前的解決方法都有哪些。接着呈現這些解決方案存在的弊端,針對這些弊端,作者提出了自己的算法:

一、多模態數據的模態不完整性問題

  1、面臨的問題

    多模態數據的模態不完整性問題

  2、目前的解決方法

    2.1、最簡單的辦法是將所有不完整多模態數據實例刪除。

    2.2、通過缺失值填充對不完整模態實例進行預處理。eg:Trivede和Shao提出:通過共享實例構建不完整模態數據的核矩陣,

      然后基於核方法對多模態數據進行融合聚類分析,這類方法能夠得到有效的分析結果。

    2.3、PVC(部分多視圖聚類算法)。

    2.4、MIC(不完整多視圖聚類算法)。

    2.5:無監督的多模態數據聚類算法。

    2.6:基於聯合特征選擇和子空間學習的不完整多視圖聚類算法。

    2.7:基於深度神經網絡(DNN),主要分為兩類

     2.7.1:基於深度神經網絡本身提取多模態數據的共享特征,並利用共享特征對個模態數據進行重建(eg:SplitAE)

     2.7.1:利用多模態特征融合模型耦合各模態深度學習網絡,通過聯合優化得到多模態數據的深度語義共享子空間(eg:DCCA、DCCAE、CorrAE、DisAE)

    2.8:深度典型相關分析。該模型能夠通過深度網絡學習得到每個模態特征空間到共享特征空間的非線性匹配網絡,進而得到多個模態的共享特征表示

  3、目前解決方法存在的弊端

    2.1:不完整模態數據也包含數據挖掘有用的信息。

    2.2:這種方法只適用於基於核的多模態學習。

    2.3:

    2.4:2.3和2.4兩種算法均沒有考慮數據集中不同模態數據的結構相似性(eg:在一個模態中兩個數據實例相似性較大時,那么在其他模態中相似性應該保持一致)

    2.5:

    2.6:只采用線性和非線性轉換彌補多模態數據之間的語義偏差,當模態分布或者特征差異較大時,簡單的數據轉換難以保證融合結果的有效性。

    2.7:這些模型主要解決兩個模態數據的深度融合問題,並且很難擴展到多模態的融合分析

    2.8:較好

  4、小結

    多模態深度學習模型能夠比淺層學習模型得到更加有效的跨模態數據融合結果。

  5、作者提出的解決方法

    提出基於深度語義匹配的不完整多模態數據融合算法,利用多模態高層語義的相關,設計融合模態私有深度網絡和模態共享特征的統一深度學習模型。此外,基於模態的空間幾何特性,設計模態局部不變圖規則化因子,耦合多模態深度共享特征和原始模態特征。利用坐標下降、反向傳播等優化算法對整個模型進行優化更新,得到多模態數據的高層語義融合特征。

二、多模態數據的處理實時性問題。

  1、面臨的問題

    多模態數據的處理實時性問題

  2、目前的解決方法

    多模態共聚類:

    2.1、基於潛在子空間學習

      2.1.1、基於矩陣分解的多模態潛在子空間學習

      2.1.2、基於非負矩陣分解的多模態潛在共享特征學習

      2.1.3、基於譜嵌入、無向圖模型、高斯過程的多模態共享子空間學習算法

    2.2、共訓練算法

      2.2.1、半監督共訓練方法
      2.2.2、多核學習
      2.2.3、低秩和稀疏學習

   增量和在線多模態聚類融合算法
       2.3、基於最大值最小優化的增量模糊聚類算法(IminimaxFCM)
    2.4、無監督多視圖特征選擇算法

    2.5、自組織神經網絡的異構融合自適應諧振理論
    2.6、多模態異構融合模型(完成任意模態特征的增量共聚類)

  3、目前解決方法存在的弊端

    2.1和2.2這些算法主要面向多模態靜態數據,當數據量大或數據動態增長變化時算法的開銷巨大。
    2.3 - 2.6 在增量共聚類融合過程中需要預定義聚類結果簇數目,或者引入額外的參數使得算法性能易受影響

  4、作者提出的解決方法

    提出一種無參數多模態數據增量共聚類融合算法。定義了新的多模態數據相似性度量標准,並設計了三種增量聚類策略,即簇創建、簇合並和聚類划分,對多模態數據進行增量聚類融合。同時設計一種自適應的模態權重機制,在共聚類融合過程中對模態權重進行動態調整。

三、多模態數據的模態不均衡性問題

  1、面臨的問題

    多模態數據的模態不均衡性問題

  2、目前的解決方法(遷移學習的主要目的是通過建立源和相關目標域之間的融合紐帶,利用充分的源域知識輔助目標域

    不充分數據的學習挖掘,遷移學習需要跨域數據遷移融合

    現有遷移學習算法大致可分為兩類:

    2.1、同構迀移算法

      2.1.1、基於稀疏編碼的自學習模型,
      2.1.2、遷移主成分分析(TCA)
    2.2、異構遷移學習
      2.2.1、基於語義特征的遷移融合

    2.3、深度神經網絡
      2.3.1、利用棧式降噪自動編碼機(SDA)
      2.3.2、邊際SDA(mSDA)
      2.3.3、基於深度學習的同構遷移學習模型
      2.3.4、基於深度自動編碼機的有監督特征表示學習算法完成同構數據的遷移學習
      2.3.5、基於文本-圖片共生數據對通過深度特征耦合將文本語義遷移到圖片特征空間,支撐圖片的分類預測
      2.3.6、基於多層參數弱共享深度遷移學習網絡進行文本到圖片的跨域信息轉化
      2.3.7、深度遷移網絡(GDTN)進行異構域之間的知識遷移分析

  3、目前解決方法存在的弊端

    2.1和2.2它們只采用線性或非線性轉換彌補源和目標域之間的語義偏差,我們稱之為淺層遷移學習。當數據域間特征分布的分歧或偏差較大時,淺層遷移學習將變得不夠魯棒,甚至無效。

    2.3深度學習的遷移模型的主要目標是通過神經網絡的多層非線性轉換學習到不同域數據的高層語義共享空間,在共享空間中不同域的語義偏差將被有效減小。然而大多現有的深度遷移學習方法只是在各域學習到的域深度特征的基礎上建立不同域的語義相關,沒有將深度神經網絡的學習能力充分融入到跨域知識融合模型構建過程中。當異構域數據間的語義偏差較大時,共享特征精確性難以保證。另外,一些現有的深度遷移學習方法通過設定不同域深度網絡參數或特征共享,完成異構數據域的語義融合,在各域深度網絡的訓練過程中強制深度網絡結構或網絡輸出特征相同,這樣會忽略不同數據域的私有特征,當異構域的偏差較大時,私有特征的強制匹配會嚴重影響學習到的共享特征的精度。

  4、作者提出的解決方法

    提出基於多層語義匹配的異構模態數據遷移融合算法。耦合模態深度網絡與模態相關分析模型,設計多層語義匹配統一深度網絡架構。在每一層對多模態數據進行特征相關融合,並利用頂層模態輸出特征對模態網絡進行整體相關。定義新的深度融合目標函數,優化學習異構模態私有深度匹配網絡和模態高層語義共享空間,完成源域模態知識到目標域任務的遷移融合。

四、多模態數據的屬性高維性問題

  1、面臨的問題()

    多模態數據的屬性高維性問題。1、最直接的多模態數據分析方法將各模態特征向量連接到一起形成數據的新的特征表示,並通過有效的機器學習與數據挖掘方法完成新特征向量的挖掘分析。然而,這種方法忽略了數據不同模態的不同統計特性,同時簡單的特征連接容易引起數據處理的維度災難問題。2、無標簽多模態數據實例廣泛存在,無標簽多模態學習(也叫多模態聚類分析)具有重要意義,多模態聚類能夠通過無監督多數據特征集表示之間的互補信息學習,有效地將數據特征實例划分到聚類結果簇中

  2、目前的解決方法

   多模態聚類方法大致可分為四類:
    1、直接將多個數據特征集融入到聚類過程中,並通過自定義的損失函數優化整個聚類過程
    2、后融合方法
    3、首先學習多特征集之間的統一相似矩陣表示,然后利用此相似度矩陣完成最后的聚類分析
    4、基於子空間學習的多模態聚類

  3、目前解決方法存在的弊端

    現有多模態子空間相關特征學習算法己經取得了良好的效果,但在相關特征的學習過程中只是將原始多模態數據集進行投影或轉換,沒有考慮數據中包含的非相關(負相關)特征

  4、作者提出的解決方法

     提出一種無監督多模態數據非負相關特征共享融合算法。設計模態私有(不相關或負相關)特征和跨模態共享(相關)特征共學習模型,利用共享特征的耦合建立各模態聯合優化目標函數,並利用模態不變圖規則化和投影矩陣稀疏化輔助模型優化過程。最后通過迭代的模態間相關和不相關特征的共學習得到低維子空間中魯棒的跨模態數據融合特征。

6  結論與展望

6.1  本文工作總結

(1)基於深度語義匹配的不完整多模態數據融合算法
(2)無參數多模態數據增量共聚類融合算法
(3)基於多層語義匹配的異構模態數據遷移融合算法
(4)無監督多模態數據非負相關特征融合算法

6.2  創新點總結

1、針對現有不完整多模態數據融合算法難以有效學習跨模態數據共享語義的問題,提出基於深度語義匹配的不完整多模態數據融合方法。利用深度學習網絡的高層語義抽象特征對不完整多模態數據進行深度相關融合,降低模態共享特征的語義偏差,提升融合結果的准確性。

2、針對現有多模態數據增量聚類融合算法精度易受參數選擇影響的問題,提出一種無參數多模態數據增量共聚類融合算法。通過簇結構和模態權重的動態更新調整,對多模態數據進行無參數增量融合划分,保持新增多模態數據聚類融合精度的同時,提升聚類融合算法的效率和擴展能力。

3、針對現有異構模態數據遷移融合算法難以有效彌補模態間較大語義偏差的問題,提出基於多層語義匹配的異構模態數據遷移融合算法。通過跨模態特征的逐層相關匹配和頂層輸出特征的最大相關對模態融合網絡進行整體優化調整,有效彌補異構模態數據間的語義偏差,提升遷移融合結果的精度。

4、針對現有多模態低維特征共享融合算法難以有效排除模態私有信息的影響的問題,提出一種無監督多模態數據非負相關特征融合算法。通過模態私有特征的分離和多模態共享特征的耦合學習,提升低維共享特征融合表示的准確性,同時完成高維模態數據的屬性降維。

6.3  未來工作與期望

需要進一步研究和探索的點:

(1)本文第二章構建的深度語義匹配模型主要針對模態的不完整性對多模態數據進行融合分析。進一步探索多模態深度語義匹配模型,有效學習包含不精確數據、不正確數據和冗余數據的數據融合特征,是多模態低質數據未來研究的一個主要內容。
(2)在本文第三章的多模態增量共聚類融合算法中,針對大數據的海量性與動態演化特性,利用所有模態的屬性特征進行模態加權融合。然而在大數據的具體分析中,數據的高維性對算法的實時性影響也很大。因此,進一步研究融合特征選擇和屬性降維的多模態增量融合算法是未來研究的又一個重要內容。
(3)在本文第四章的深度異構遷移融合算法中,利用跨域的共生數據輔助訓練模態間多層語義深度匹配子空間,完成異構模態的知識遷移融合。事實上,共生數據的質量和數量對遷移模型的性能影響很大。針對這個問題,在未來的研宄中主要關注如何利用統計學和數學方法對共生數據進行可用性驗證,並探索如何在更通用的輔助數據集上構建深度異構遷移融合模型。
(4)面對高維的多模態數據,本文第五章提出一種無監督多模態數據非負相關特征融合算法,將跨模態相關特征融合到低維語義共享子空間。在實際應用中,多模態數據集中通常存在一定的有監督或弱監督信息,例如部分有標簽數據和分類結果,這些真實語義能夠輔助低維共享空間的學習。因此,進一步研究基於有監督和半監督信息的多模態非負相關特征融合模型,是以后工作的又一個主要內容。

關鍵詞解釋:

  1. 不完整性:數據缺失
  2. 增量學習、在線學習:多模態的數據快速產生,並且需要對其進行實時的分析處理
  3. 模態的不均衡性:某些模態數據實例數目較多,某些模態數據實例數目較少,那么需要利用包含較多實例的模態數據輔助較少實例的模態數據分析學習。
  4. 屬性的高維性:例如圖片和文本等特征描述均表示成高維向量。
  5. 增量學習:指一個學習系統能不斷地從新樣本中學習新的知識,並能保存大部分以前已經學習到的知識

思考:

1、除了目前已被本文作者提出的問題(4個),多模態數據融合中還存在其他問題嗎?(找問題)

2、對於提出的解決方案,有瑕疵,或者說還能改進嗎?(改進)

3、自己是否能想出多模態數據融合的算法(創新)

處理實時性時,把實時性和聚類聯想在一起。可以考慮不是聚類的情況

 

 

 

ending......

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM