論文閱讀筆記(六十五)【ECCV2018】:Deep Cross-Modal Projection Learning for Image-Text Matching


Introduction

對於image-text embedding learning,作者提出了 cross-modal projection matching (CMPM) loss 和 cross-modal projection classification (CMPC) loss。前者最小化兩個模態特征投影分布的KL散度;后者基於norm-softmax損失,對模態A在模態B上的投影特征進行分類,進一步增強模態之間的契合度。

 

The Proposed Algorithm

Network Architecture

文本特征:Bi-LSTM + 最大池化策略

圖像特征:MobileNet、ResNet-152

 

Cross-Modal Projection Matching

假設每對輸入為,其中 x 表示圖像,z 表示文本,表示文本圖像匹配,其匹配概率計算為:

對於一個圖像,可能存在多個匹配的文本,在每個mini-batch中,對匹配概率進行正則化,即:,匹配損失為:

匹配損失中可以看出其本質是KL損失,當正確結果 p 比較低時,希望網絡做出的預測 q 也比較低。再加上文本圖像換位后得到的損失,CMPM損失計算為:

 

Cross-Modal Projection Classification

傳統的softmax計算為:

Norm-softmax損失為:

相比之下,norm-softmax采用了權重正則化項,下圖直觀來說:不同權重向量被歸一化到相同長度,分類結果由原先的簡化為,使得樣本分布與權重向量更加緊密。

傳統的softmax損失對原有的特征進行分類,而CMPC損失對A在B上的投影特征進行分類:

 

Experiments


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM