
2. Approach:
2.1. Visual Transformer:
給定輸入圖像,作者首先用 resnet 提取 CNN feature,然后用 1*1 conv 進行降維處理,得到 256-D 的特征。然后將這些特征圖 reshape 為特征向量,因為標准的 Transformer 僅接收向量。然后用多頭注意力機制進行處理。此外,作者也考慮了 sine spatial position encodings 進行位置編碼,作為特征圖的輔助輸入。
2.2. Linguistic Branch:
這部分的結構和上面 Vis-Transformer 類似,但是為了更好的利用 pre-trained BERT model,作者這里盡量保持不動。利用了 12 個 transformer encoder layers,輸出的特征維度為 768-D。
2.3. Visual-linguistic Fusion Module:
給定上述兩個輸入的特征,作者首先對 vis-feature 進行處理,使得兩個模態的輸入長度保持一致,即 256-D。然后,作者引入了一個可學習的 embedding,即 [REG] token, 並且將聯合特征學習模塊的輸入調整為:

2.4 Prediction Head:
作者將 visual grounding 看做是一種回歸問題。直接引入了 L1 smooth loss 和 GIoU loss function,進行損失方面的統計:
3. Experimental Results:


