原文地址:https://zhuanlan.zhihu.com/p/92705250
1.跨模態檢索的定義
在這篇文章中A Comprehensive Survey on Cross-modal Retrieval,作者給出了跨模態檢索(Cross Modal Retrieval)的定義:It takes one type of data as the query to retrieve relevant data of another type。大概意思就是說,將一種類型的數據作為查詢去檢索另一種相關類型的數據。那么什么叫不同類型(different type or different modality)的數據呢?在文章Multimodal Machine Learning: A Survey and Taxonomy中,作者認為目前有主要的3種模態(modalities),分別是自然語言(寫和說等)、視覺信號(圖片和視頻等)以及聲音信號(對聲音的編碼以及韻律等)。在文章A Comprehensive Survey on Cross-modal Retrieval中,作者也給出了一個很直觀的例子,a user can use a text to retrieve relevant pictures or videos(一個使用者使用文本去檢索相關圖片或視頻)。這兒也有一張很直觀的跨模態檢索的框架圖:

2.一些經典的方法
跨模態檢索在方法上主要分為兩大類,一類是實值表示學習(real-valued representation learning),另一類是二值表示學習(binary representation learning),也稱為跨模態哈希方法。實值表示學習直接對從不同模態提取到的特征進行學習;而二值表示學習是對從不同模態提取到的特征先映射到漢明二值空間,然后在此空間中進行學習。
2.1.Real-valued representation learning
- Multimedia Content Processing through Cross-Modal Association,這篇文章中,作者提出了一種Cross-modal Factor Analysis(CFA)的方法來完成對語音和圖像序列進行檢索(
)。這是一種無監督學習的方法。 - A New Approach to Cross-Modal Multimedia Retrieval,這篇文章主要對文本和圖片之間的檢索進行研究(
),作者提出了一種CCA方法,利用典型相關分析的方法(canonical correlation analysis)用來學習text和image之間的相關性。大概方法就是將文本和圖像從各自的原本的空間映射到CCA空間,然后利用距離(L1 距離和L2 距離)來對文本和圖像的相似性進行刻畫。這是一種無監督學習的方法。 - Multimodal Deep Learning,這篇文章中,作者第一次提出了采用深度學習的方法來處理多模態任務。
- Deep Canonical Correlation Analysis,這篇文章中,作者提出了一種DCCA(Deep Canonical Correlation Analysis)的框架,主要用來學習兩種模態之間的非線性轉換,使結果是高度線性相關的。這個方法可以看做前面介紹的CCA方法的非線性的擴展,也可以看做是KCCA(Kernel Canonical Correlation Analysis)的一種替換。但是這個方法的缺點是過度的占用內存、計算偏慢以及可能發生過擬合。
- Generalized Multiview Analysis: A Discriminative Latent Space,這篇文章作者提出了一種Generalized Multiview Analysis(GMA)的方法來完成文本和圖像之間的檢索(
),這是一種監督學習的方法。 - Multimodal Learning with Deep Boltzmann Machines,這篇文章主要對文本和圖片之間的檢索進行研究(
),作者提出了Multimodal DBM方法,利用深度玻爾茲曼機(Deep Boltzmann Machines)來學習文本和圖像聯合空間的生成模型,即學習
或
。 - Deep Correlation for Matching Images and Text,這篇文章中,作者提出了一種端對端的深度典型相關分析方法(End-to-End Deep Canonical Correlation Analysis)對文本和圖片進行檢索(
),作者采用了GPU和減少過擬合的方法來應對DCCA框架的缺點。 - Jointly Modeling Deep Video and Compositional Text to Bridge Vision and Language in a Unified Framework,這篇文章中,作者提出了一種統一的joint video-language model的框架來完成文本和視頻之間的檢索(
)。 - Cross-Modal Retrieval With CNN Visual Features: A New Baseline,這篇文章提出了一種deep semantic matching(deep-SM)的方法來完成文本和圖像之間的檢索(
)。作者采用了在ImageNet上預訓練的CNN,然后在目標數據集上進行微調來對數據集進行特征提取,並且作者也提出了一種深層語義匹配的方法來解決帶一個或多個標簽的樣本的跨模態檢索問題。這是一種監督學習的方法。 - Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models,這是一篇利用GAN和Reinforcement Learning(RL)來進行跨模態檢索的文章。文章中將生成過程結合到跨模態特征嵌入中,通過該方法我們不僅可以學習全局抽象特征還有局部層次特征。
- Webly Supervised Joint Embedding for Cross-Modal Image-Text Retrieval,在這篇文章中,作者認為目前的很多圖像和文本之間的檢索受到了小樣本數據集的困擾,但是通常自己標注更大的數據集的話會很昂貴,故作者利用深度學習學習帶有噪聲的web數據集以此增加模型的魯棒性。
- CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval,之前的大多數方法都是將圖像和句子獨立嵌入到一個聯合空間,並比較它們的相似性。作者認為之前的那些方法在計算相似性之間很少考慮了圖像和文本之間的相互關系。在這篇文章中,作者提出了一種Crossmodal Adaptive Message Passing(CAMP)方法來完成文本和圖像之間的檢索任務(
)。 - Cross-Modal Interaction Networks for Query-Based Moment Retrieval in Videos,這篇文章中,作者提出了一個新型的Cross-Modal Interaction Network(CMIN)來完成文本和視頻之間的檢索(
)。作者認為現有的很多工作往往只關注文本和視頻之間的檢索的一個方面,比如查詢表示學習、視頻上下文的建模以及多模態的融合,因此作者認為應該開發一個全面的系統來進一步的提高性能。
2.2.Binary representation learning
- Large-Scale Supervised Multimodal Hashing with Semantic Correlation Maximization,作者提出了一種semantic correlation maximization (SCM)來完成文本和圖像之間的檢索(
)。作者認為當前的supervised multimodal hashing methods訓練的時間復雜度太高了,故很難擴大到大型數據集上。因此作者提出了SCM方法來將語義標簽無縫地集成到大規模數據建模的哈希學習過程。 - Semantics-Preserving Hashing for Cross-View Retrieval,在這篇文章中,作者提出了一種Semantics-Preserving Hashing method(SePH)的方法來完成文本和圖像之間的檢索(
)。 - Deep Cross-Modal Hashing,在這篇文章中,作者首次將feature learning和hash-code learning結合到一個框架下,提出了端對端的deep cross-modal hashing(DCMH)方法。
- MTFH: A Matrix Tri-Factorization Hashing Framework for Efficient Cross-Modal Retrieval,作者在文中提到了hashing具有占內存小,查詢速度快等優點。但作者認為,當前的跨模態哈希方法常常需要學習等長的哈希碼來表示多模態數據,並使他們具有直觀的可比性。因此作者提出了一種Matrix Tri-Factorization Hashing(MTFH)的方法來對不同數據進行不同長度的編碼。
- Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval,作者認為得益於深度學習的成功,導致了跨模態檢索取得了飛速的發展,但是還是有一個主要的瓶頸:如何彌補模態之間的差異,進一步提高檢索的精度。因此作者提出了self-supervised adversarial hashing (SSAH) 方法,即采用對抗+跨模態哈希結合的方法。
- Triplet-Based Deep Hashing Network for Cross-Modal Retrieval,在這篇文章中,作者認為現有的跨模態哈希方法由於忽略了包含豐富語義信息的異構數據之間的相對相似性,導致檢索性能不佳,幾乎所有的跨模態哈希方法都無法獲得強大的哈希碼。因此作者提出了一種tripletbased deep hashing network(TDH)的方法來完成文本和圖像之間的檢索(
)。
注:上述文章的順序都是按照提出時間進行排列的。
3.數據集
主要的數據集有
- Pascal VOC 2007:數據集包含9963張圖片,每張圖片有399個標簽注釋,一共有20個類別。
- NUS-WIDE:數據集包含269648張圖片,每張圖片包含81個真實的標簽以及100個文本注釋。
- Pascal Sentence:數據集是Pascal VOC的子集,包含1000對圖像和文本的描述(有多個文本描述)。一共有20個類別,每個類別分別有50對圖像和文本。
- Wikipedia:數據集包含2866對圖片和文本的描述(只有1個描述),一共是10個類別。
- INRIA-Websearch:數據集包含71478對圖像和文本的描述,一共有353個類別。
- Flickr8K:數據集是包含8000張圖片,每張圖片有5個注釋。
- Flickr30K:是數據集Flickr8K的擴展,包含31784張圖片,每張圖片5個注釋。
- IAPR TC-12:數據集包含20000張圖片,每張圖片用英語、德語和西班牙語這3種語言進行注釋。
- MSCOCO:數據集包含123000張圖片,每張圖片采用5個文本進行注釋。
- ActivityCaption:數據集包含20000個未經修剪的視頻,每個視頻都包含多個自然語言的描述。
- TACoS:數據集中只包含127個視頻,雖然每個視頻都有詳細的文本標注,但是依舊缺乏多樣性。
