TransVG: End-to-End Visual Grounding with Transformers


TransVG: End-to-End Visual Grounding with Transformers
2021-04-20 10:37:54
 
Official Code: Not available yet
 
1. Background and Motivation
本文提出了首個基於 Transformer 模型的 Visual Grounding 算法框架, 從下圖可以看到,主要包含四個模塊:language-Transformer,Image-Transformer,Vis-Lang-Transformer,以及 prediction 模塊。作者的實驗表明結構化的融合模塊並不是必須的,因為簡單地進行 Transformer 編碼層的堆疊就可以得到較好的效果。因為,attention layer 已經建模了模態內和模態間的對應關系,盡管不用任何特定的融合模塊。此外,作者也發現直接回歸矩形框位置,比之前任何一種方法,效果都要好。

 

 

 

2. Approach: 

 

2.1. Visual Transformer: 

給定輸入圖像,作者首先用 resnet 提取 CNN feature,然后用 1*1 conv 進行降維處理,得到 256-D 的特征。然后將這些特征圖 reshape 為特征向量,因為標准的 Transformer 僅接收向量。然后用多頭注意力機制進行處理。此外,作者也考慮了 sine spatial position encodings 進行位置編碼,作為特征圖的輔助輸入。

 

2.2. Linguistic Branch:

這部分的結構和上面 Vis-Transformer 類似,但是為了更好的利用 pre-trained BERT model,作者這里盡量保持不動。利用了 12 個 transformer encoder layers,輸出的特征維度為 768-D。

 

2.3. Visual-linguistic Fusion Module

給定上述兩個輸入的特征,作者首先對 vis-feature 進行處理,使得兩個模態的輸入長度保持一致,即 256-D。然后,作者引入了一個可學習的  embedding,即 [REG] token, 並且將聯合特征學習模塊的輸入調整為:

 

 

 

2.4 Prediction Head:

作者將 visual  grounding 看做是一種回歸問題。直接引入了 L1 smooth loss 和 GIoU loss function,進行損失方面的統計:

 

 

 

 

 

3. Experimental Results

 

 

 

 

 

 

 

 
== 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM