Align before Fuse: Vision and Language Representation Learning with Momentum Distillation


Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

2022-03-18 10:04:06

 

Paperhttps://proceedings.neurips.cc/paper/2021/file/505259756244493872b7709a8a01b536-Paper.pdf 

Codehttps://github.com/salesforce/ALBEF 

 

1. Background and Motivation

大部分現有的 VLP 方法依賴於預訓練的物體檢測器,進行 region based 圖像特征提取,采用多模態編碼器將 image feature 和 word tokens 進行融合。多模態編碼器被訓練用於理解圖像和文本,例如 masked language modeling, image-text matching。雖然這種方式很有效,但是作者仍然總結了如下幾個不足:

(1)圖像特征和文本符號映射仍然停留在他們自己的空間,使得多模態編碼器很難學習建模他們之間的交互;

(2)物體檢測器 --- 標注費錢,使用費算力 --- 在預訓練階段需要標注矩形框,在推理階段高分辨率圖像,如 600*1000,速度較慢;

(3)廣泛使用的 image-text 數據集均是從網上搜集的帶有嚴重噪聲的數據,現有的預訓練目標,如 MLM 可能過擬合到文本數據,降低了模型的泛化性能。 

 

因此,作者提出了 ALBEF 以嘗試解決上述問題。作者首先用一個 detector-free 的方式分別對 image 和 text 進行編碼。然后,利用一個多模態編碼器來融合圖像特征。引入了一個中間的 image-text contrastive (ITC) 損失,該損失函數可以達到如下三個效果:

1). 其將 image 和 text 特征進行了對齊,使其更加易於多模態編碼器進行跨模態學習;

2). 其改善了單個編碼器以更好地理解圖像和文本的語義意義;

3). 學習了一個公共的低緯度空間以映射 image 和 text,使得 image-text matching objective 可以通過對比困難負樣本挖掘找到更多有信息的樣本。

 

為了改善在噪聲環境下的學習問題,本文引入了 Momentum Distillation (MoD),一個簡單的方法就可以使得模型引入較大的網絡數據集。在訓練過程中,作者模型的一個動量版本,然后利用這個動量模型來產生 pseudo-targets 作為額外的監督。有了 MoD, 該模型就不會因為產生了其他合理的輸出,且該輸出不同於 web annotations 而受到懲罰。實驗表明,MoD 不僅改善了 pre-training,也對下游任務有較好的提升。

 

 

2. ALBEF Pre-training

如圖 1 所示,ALBEF 的視覺編碼器是 ViT-B/16,作者也加載了 ImageNet 上預訓練的權重作為初始化值。BERT-based 模型被選擇作為 text encoder,也是利用預訓練權重進行初始化。網絡結構上大致就是這樣。

 

關於預訓練目標,作者這里用到了三個:

1. image-text contrastive learning;

2. Masked language modelling;

3. Image-text matching。

完整的預訓練目標就是這三者損失的加和。

 

本文的另外一個貢獻是 Momentum Distillation:

對於 ITC learning,一張圖像的 negative text 可能也會匹配上圖像的內容;

對於 MLM,可能存在其他的單詞不同於 annotation,但是依然很好地描述了圖像中的內容。然而,ITC 和 MLM 的 one-hot labels 懲罰了所有的 negative prediction,卻沒有考慮到其正確性。

 

為了解決上述問題,作者提出使用動量模型的方法,從偽真值上進行學習。動量模型時一種連續進化的教師,包含了 單模態和多模態編碼器的指數級移動平均版本。特別的,對於 ITC 來說,作者首先利用動量單模態編碼器來計算 image-text 的相似性;

然后通過替換操作,計算 soft pseudo-targets 。ITC-MoD loss 可以定義如下:

 

 

 

類似的,對 MLM loss 也可以加上這個約束:

 

 

 

== 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM