一、背景
圖像-文本跨模態檢索是一個具有挑戰性的研究課題,當給定一個模態(圖像或文本句子)的查詢時,它的目標是從數據庫中以另一個模態檢索最相似的樣本。這里的關鍵挑戰是如何通過理解跨模式數據的內容和度量其語義相似性來匹配跨模式數據,特別是當跨模式數據中有多個對象時。
早期的方法采用全局表示來表達整個圖像和句子,忽略了局部細節。這些方法在只包含單個對象的簡單的跨模態檢索場景中工作得很好,但對於涉及復雜自然場景的更真實的情況並不令人滿意。近年來的研究[12,11,7,8,17]注重檢測圖像和文本中目標的局部細節匹配,相對於以往的工作有了一定的改進,但這些方法忽略了多模態數據中對象之間的關系,而這正是圖像-文本檢索的關鍵所在。
二、貢獻
在圖像-文本檢索任務中,我們將兩種方式下的對象和關系組織成場景圖,如圖1底部所示。通過引入可視場景圖(VSG)和文本場景圖(TSG)分別表示圖像和文本,將傳統的圖文檢索問題轉化為兩個場景圖的匹配問題。
三、方法
我們的場景圖匹配(SGM)模型的目的是通過將輸入的圖像和文本句子分割成場景圖來評估圖像-文本對的相似性。SGM的框架如圖2所示,它由兩個網絡分支組成。在可視化分支中,輸入圖像被表示為可視化場景圖(VSG),然后被編碼為可視化特征圖(VFG)。同時,將其解析為文本場景圖,然后在文本分支中編碼為文本特征圖。最后,從VFG和TFG中收集對象特征和關系特征,分別計算對象級和關系級的相似度得分。
在可視化場景圖生成之后,我們設計了一個多模態圖卷積網絡(multimodal graph Convolutional Network, MGCN)來學習VSG上好的表示,該網絡包括一個預先訓練好的視覺特征提取器、一個標簽嵌入層、一個多模態融合層和一個圖卷積網絡,如圖3所示。
1、視覺特征提取器。預訓練的視覺特征提取器用於將圖像區域編碼為特征向量,可以用於預訓練的CNN網絡或物體檢測器(如Faster-RCNN[21])。
2、標簽嵌入層。每個節點都有一個由視覺場景圖生成器預測的單詞標簽,可以提供輔助的語義信息。
3、多模式融合層。在得到每個節點的視覺特征和標簽特征后,需要將它們融合成統一的表示。從而生成多模態融合特征圖。
4、圖卷積網絡。gcn[32]是卷積神經網絡,可以操作的圖形結構,這是比cnn更靈活,只能工作在網格結構化數據。為了編碼多模態融合特征圖,我們采用m層GCN,並提出了一種新的更新機制,以不同的方式更新兩種節點。關系節點從其鄰近區域聚合信息進行更新,對象節點從自身進行更新,如圖3中藍色和黃色虛線箭頭所示。
與圖像相似,自然語言句子也描述了許多物體及其關系。因此,圖結構也適用於表示句子。我們將輸入句子的單詞組織成文本場景圖(text scene graph, TSG),其中包含兩種邊,如圖4所示。黑色箭頭表示詞序邊緣,它根據句子中的詞序將單詞連接起來。棕色箭頭表示語義關系邊緣,它是由SPICE[1]解析的語義三胞胎構建的,比如“man-hold-baby”。由於不同的邊,在圖中形成不同類型的路徑。由詞序邊連接的路徑命名為詞序路徑。由語義關系邊連接的路徑稱為語義關系路徑。
與VSG的處理類似,設計了文本場景圖編碼器,用於從TSG中提取對象和關系特征,該TSG由字嵌入層、字級bi-GRU編碼器和路徑級biGRU編碼器組成,如圖4所示。字級bi-GRU編碼器將沿着單詞順序路徑對每個節點進行編碼,然后在每個隱藏狀態下生成帶有上下文的對象級特性。由於語義關系邊緣突破了句子語法結構的限制,路徑級bi-GRU沿着語義關系路徑編碼后,得到了明確的關系級特征。
四、結論
在這項工作中,我們提出了一個基於圖形匹配的模型,用於包含各種對象的復雜場景下的圖文檢索。我們發現,局部細節圖像-文本匹配不僅對象重要,而且對象之間的關系也很重要。為了捕獲圖像和文本中的對象和關系,我們分別將圖像和文本表示為可視化場景圖和文本場景圖。然后設計了場景圖匹配(SGM)模型,利用兩個圖形編碼器從圖中提取對象級特征和關系級特征,實現圖像-文本匹配。由於明確地建模了關系信息,我們的方法在Flickr30k和MS COCO上的圖像-文本檢索實驗中都優於目前的先進方法。更重要的是,定性的實驗表明,我們的方法可以真正捕獲的關系,有助於圖像文字檢索任務。