VSE++: Improving Visual-Semantic Embeddings with Hard Negatives
1 摘要
受到hard negative mining的啟發(在結構化預測中使用hard negative和對loss function進行排序的啟發),我們對用於多模態嵌入的常見損失函數進行了簡單的更改。
- hard negative mining
難例挖掘和非極大值抑制NMS一樣,都是為了解決目標檢測樣本不平衡和低召回率的問題。
在目標檢測過程中為了提高召回率,通常會提出很多Region Proposal(遠超過實際數量的ground truth),但是大量的Region Proposal會使得訓練時絕大部份都是負樣本,為了保證樣本均衡,需要對負樣本進行抽樣。
一般情況下選取正負樣本的比例為1:3,且選擇負樣本中容易被分錯類的困難負樣本進行網絡訓練。
如何判斷困難負樣本?
選用初始樣本集去訓練網絡,再用訓練好的網絡去預測負樣本集中剩余的負樣本,選擇置信度誤差較大的負樣本作為困難負樣本。
- visual-semantic embeddings for cross-modal retrieval
embedding意味着從兩個(或更多)結構域映射到其中語義上相關聯的輸入(例如,文本和圖像)被映射到相似的公共向量空間。
visual-semantic embeddings則是檢索具有標題的圖像或查詢圖像的標題。
visual-semantic embeddings應用於很多領域:image-caption retrieval and generation、visualquestion-answering... - 本文創新點
利用hard negative的思想,對損失函數進行改進。
2 方法介紹
2.1 Visual-Semantic Embedding
- 圖像采用VGG19或者ResNet152進行特征提取
- 文本描述采用GRU將文本與圖像映射到同一個子空間
- 使用線性映射把圖像特征和文本特征映射到Embedding中
- 使用內積計算相似度
2.2 loss function
訓練可以使損失最小化
最近的方法使用a hinge-based triplet ranking loss作為損失函數
Sum of Hinges (SH) loss
2.3 Emphasis on Hard Negatives
Max of Hinges (MH) loss
與之前的損失函數不同的是,這種損失是根據 the hardest negatives 確定的。
Leveraging Visual Question Answering for Image-Caption Ranking
1 摘要
提出了一個score-level和 representation-level融合模型,並整合學習到的VQA knowledge,最后利用在提高image caption ranking上面。
2 Building Blocks: Image-Caption Ranking and VQA
2.1 Image-Caption Ranking
Image-Caption Ranking是在給定查詢字幕的情況下檢索相關圖像,並在給定查詢圖像的情況下檢索相關字幕。
Image-Caption Ranking使用 ranking scoring function S(I,C),使得相應的檢索概率最大化:
構造S(I,C)通常使用組合方式:
- 圖像表示通常使用用於圖像分類的預訓練的CNN
- 字幕表示通常使用多模式下使用RNN計算的句子編碼空間。
2.2 VQA
VQA的任務是給圖像I和關於I的自由形式的開放式問題Q,並為該問題生成自然語言的答案A。
3 方法
3.1 VQA-Grounded Representations
使用VQA和VQA-字幕模型表示VQA空間中的圖像和字幕
映射到同一 embedding space
3.2 score-level fusion and representation-level fusion
- Score-Level Fusion
- Representation-Level Fusion
Knowledge Aware Semantic Concept Expansion for Image-Text Matching
1 摘要
解決的問題:現有模型僅從給定圖像中檢測語義概念,因此不太可能處理long-tail和遮擋概念。 同一場景中經常出現的概念,例如 卧室和床可以提供常識知識,以發現其他與語義相關的概念。
解決方式:Scene Concept Graph (SCG)--通過聚集圖像場景圖並提取頻繁出現的概念對作為場景常識。
2 Scene Concept Graph Based Image-Text Matching
2.1 Text Feature Encoding
采用LSTM作為文本編碼器以獲取文本表示。
2.2 Visual Feature Module
使用VGG19網絡,提取圖像特征。最后得到4096維向量。
2.3 Concept Detection Module
我們使用多標簽圖像分類模型檢測一個概念是否出現在圖像中。
2.4 Concept Expansion Module
目的:縮小圖像與文本的語義gap
輸出:
向量第i維用0或者1表示這個concept不出現或出現在圖像中。
2.5 Concept Prediction Module
目的:但是concept vocabulary太大使模型的表現力大大下降,所以我們希望發現盡可能地多詞,但不會降低模塊准確率。所以,引入了Scene Concept Graph,根據圖像和描述,擴展更頻繁的concept。
- Scene Concept Graph構建
- 根據構建的Scene Concept Graph擴展concept
- 算法描述
輸出:
2.6 Image-Concept Fusion Module
目的:盡管我們可以通過SCG擴展許多未檢測到的語義概念,但是很明顯,一些與圖像無關的嘈雜概念也會被擴展,從而導致性能更差。因此,我們提出了一種機制來選擇性地學習和預測概念是否與圖像相關。
輸入:the whole-image encoding fi、the detected concept vector gd、the expanded concept vector ga
輸出:the relevant concept vector
- 整合expanded concept vector ga和whole-image encoding fi
ELU--Exponential Linear Units - 預測結果
2.7 Image-Concept Fusion Module
輸入:the predicted concept vector gˆc 、whole-image encoding fi
輸出:
文中提供了兩種融合方式
- element-wise product
- 線性映射到同一個embedding space
- 通過L2歸一化將這兩個映射的嵌入歸一化
- element-wise product
- gated fusion
Saliency-GuidedAttentionNetworkforImage-SentenceMatching
1 摘要
研究的問題:圖像與句子的匹配
解決的問題:與以前的方法主要采用對稱架構來代表兩種方式不同,本文采用不對稱鏈接。
解決方式:Saliency-guided Attention Network (SAN)--在視覺和語言之間建立不對稱鏈接,從而有效地學習細粒度的跨模態相關性。
2 the proposed SAN model
2.1 Input Representation
2.1.1 Visual Representation
vi是圖像I第i個區域的特征,一共有M個。上式是把圖像的M個特征整合成一個全局特征Vg。
矩陣Pg表示附加的全連接層,它旨在將視覺特征嵌入到與文本特征兼容的k維聯合空間中。
2.1.2 Textual Representation
- 把一句話分成L個words,用one-hot向量表示每個word
- 把word嵌入到embedding space
- 然后,我們在不同的時間步長將它們依次饋入雙向GRU
- 取每個時間步向前隱藏狀態和向后隱藏狀態的平均值
- 對於整個sentence得到一個全局特征
2.2 Saliency-weightedVisualAttention(SVA)
2.2.1 The Residual Refinement Saliency Network(RRSNet)
目的:之前用於視覺顯着性檢測的網絡關注精確性,而忽視網絡的體積,所以導致這些方法的網絡體積比較大。本文提出了一個輕量級的網絡RRSNet。
- ResNeXt-50作為backbone network,輸出一組不同比例的特征圖
- 首先對第二個卷積層的特征圖進行上采樣,以使其大小與第一層的特征圖相同。 然后,我們將它們串聯起來並應用卷積運算以減小冗余通道的尺寸,從而產生一個低層的集成特征。
gc(·)是一種特征融合網絡,它通過卷積運算和PReLU激活函數集成了低級特征。
- the Residual Refinement Block(RRB)
RRB的原則是利用低層特征和高層特征來學習中間顯着性預測和ground truth之間的殘差。
2.2.2 Saliency-weighted Visual Attention Module
目的:利用顯着性信息作為指導進行visual attention
- 首先使用平均池化操作對顯着性圖S1至S2進行下采樣,以使其與視覺特征圖V∈RX×Y×d的大小對齊
- 歸一化S2得到
2.3 Saliency-guidedTextualAttention(STA)
- 將全局視覺特征v(g)和SVA向量v(s)合並為具有平均池的集成視覺特征v
Deep Cross-Modal Projection Learning for Image-Text Matching
1 摘要
解決的問題:盡管將deep cross-modal embeddings與bi-directional ranking loss相關聯取得了巨大的進步,但是開發用於挖掘有用的三元組和選擇適當的margin的策略在實際應用中仍然是一個挑戰。
解決方式:a cross-modal projection matching (CMPM) loss and a cross-modal projection classification (CMPC) loss----learning discriminative image-text embeddings
CMPM最大程度地減少了投影相容性分布與微型批次中所有正負樣本定義的歸一化匹配分布之間的KL差異。
CMPC嘗試使用改進的norm-softmax損失將表示形式的矢量投影從一種模態分類到另一種模態,以進一步增強每個類別的特征緊湊性。
2 Deep Image-Text Matching
- joint embedding learning
- pairwise similarity learning
3 The Proposed Algorithm
3.1 Cross-Modal Projection Matching
方法:incorporates the cross-modal projection into KL divergence to associate the representations across different modalities
輸入:
意味着圖片與文本匹配
意味着圖片與文本不匹配
這一步的操作是考慮到可能一張圖片匹配到多個多個文本,所以定義了一個 true matching probability。
3.2 Cross-Modal Projection Classification
輸入:image feature
text feature