Introduction
對於image-text embedding learning,作者提出了 cross-modal projection matching (CMPM) loss 和 cross-modal projection classification (CMPC) loss。前者最小化兩個模態特征投影分布的KL散度;后者基於norm-softmax損失,對模態A在模態B上的投影特征進行分類,進一步增強模態之間的契合度。
The Proposed Algorithm
Network Architecture
文本特征:Bi-LSTM + 最大池化策略
圖像特征:MobileNet、ResNet-152
Cross-Modal Projection Matching
假設每對輸入為,其中 x 表示圖像,z 表示文本,
表示文本圖像匹配,其匹配概率計算為:
。
對於一個圖像,可能存在多個匹配的文本,在每個mini-batch中,對匹配概率進行正則化,即:,匹配損失為:
,
。
匹配損失中可以看出其本質是KL損失,當正確結果 p 比較低時,希望網絡做出的預測 q 也比較低。再加上文本圖像換位后得到的損失,CMPM損失計算為:。
Cross-Modal Projection Classification
傳統的softmax計算為:
Norm-softmax損失為:
相比之下,norm-softmax采用了權重正則化項,下圖直觀來說:不同權重向量被歸一化到相同長度,分類結果由原先的簡化為
,使得樣本分布與權重向量更加緊密。
傳統的softmax損失對原有的特征進行分類,而CMPC損失對A在B上的投影特征進行分類:
Experiments