Deep Supervised Cross-modal Retrieval
摘要
在本文中提出了一種新穎的跨模式檢索方法,稱為深度監督跨模式檢索(Deep Supervised Cross-modal Retrieval, DSCMR)。它旨在找到一個通用的表示空間,在其中可以直接比較來自不同模態的樣本。
共享
- 提出了一個監督的跨模態學習結構作為不同模態的橋梁。它可以通過保留語義的區分性和模態的不變性有效學習到公共的表達。
- 在最后一層開發了兩個具有權重共享約束的子網,以學習圖像和文本模態之間的交叉模態相關性。 此外,模態不變性損失被直接計算到目標函數中,以消除跨模態差異。
- 應用線性分類器對公共表示空間中的樣本進行分類。
方法
框架
- 包括兩個子網絡——一個是圖像模態,另一個是文本模態,端到端訓練
- 對於圖像:利用預訓練在 ImageNet 的網絡提取出圖像的 4096 維的特征作為原始的圖像高級語義表達。然后后續是幾個全連接層,來得到圖像在公共空間中的表達。
- 對於文本:利用預訓練在 Google News 上的 Word2Vec 模型,來得到 k 維的特征向量。一個句子可以表示為一個矩陣,然后使用一個 Text CNN來得到原始的句子高級語義表達。之后也是同樣的形式,后面是幾個全連接層來得到句子在公共空間中的表達。
- 為了確保兩個子網絡能夠為圖像和文本學到公共的表達,我們使這兩個子網絡的最后幾層共享權重。直覺上這樣可以使得同一類的圖片和文本生成盡可能相似的表達。
- 最后面是一層全連接層來進行分類。
目標函數
只需要了解兩個。。剩下的那個emm比較麻煩,就不提了。
\[J_1 = \frac{1}{n}||P^TU-Y||_F + \frac{1}{n}||P^TV-Y||_F\\ J_3 = \frac{1}{n}||U-V||_F \]