ViLBERT:視覺-語言任務預訓練模型


原文鏈接:https://arxiv.org/pdf/1908.02265.pdf

 

Motivation

預訓練+遷移學習(pretrain-then-transfer)是深度學習研究中常用的方法。如果在一個較大的數據集上預訓練一個模型,那么完成特定的下游任務時可以使用該模型(簡單修改模型結構或用作特征提取器),訓練時並對參數進行微調即可,這樣可以大大縮短訓練時間。

計算機視覺領域通用的預訓練模型包括在ImageNet上訓練的各種卷積神經網絡(CNN)。自然語言處理(NLP)領域在2018年提出的BERT模型(雙向Transformer結構,利用了self-attention來增加上下文的相關性)逐漸成為了語言任務中首選的預訓練模型。但在視覺與語言交叉的領域還沒有出現一個通用的預訓練模型。

本文作者基於BERT模型的思想提出了ViLBERT模型來解決視覺-語言任務的預訓練問題。

 

Pipeline

VilBERT的結構如上圖所示。圖片和文本分別經過兩條不同的stream進入co-attentional transformer層中。其中圖片經過Faster R-CNN生成候選區域提取特征生成embedding,而文本則在生成embedding后經過了額外的幾個Transformer層。作者解釋說這是因為文本經過Faster R-CNN后提取的特征已經是比較有較高層次,而文本的embedding需要通過Transformer來生成上下文之間的聯系(context-aggregation)。

此后兩條stream經過多層相互交叉的co-transformer和Transformer層。普通的Transformer中,query、key、value來自上一層Transformer。而這里提出的全新的co-transformer則同時利用了上一層中視覺和語言的信息,如下圖所示。

左側是傳統的Transformer層,而在右側的co-attention transformer中,視覺和語言兩條stream分別使用了自己的query和來自另一邊的key和value向量,這就使得在通過attention產生文本特征時可以嵌入相應的視覺信息,反之亦然。

 

 

Pretraining Tasks

ViLBERT仿照BERT的思想,選定了兩項預訓練任務。Mased multi-modal learning是遮擋住部分圖片和文本信息,讓模型預測相應的圖片區域和文本。Multi-modal alignment prediction即是給定標題和圖片,判斷兩者是否契合。

 

Downstream Tasks

下游任務包括視覺問答(VQA)、視覺常識問答(VCR)、引用表達式理解(Referring Expressions)以及基於標題的圖片檢索(Caption-Based Imahe Retrieval).

 

Experiments

作者根據上述幾個下游任務,對比了ViLBERT與其他視覺-語言預訓練模型的效果。single stream代表圖片與文字經過同一個stream的模型。右上角的十字符號代表未進行預訓練。最右側的ZS Image Retrieval是經過預訓練但未經過微調的模型用於圖片檢索任務。可以看到,經過預訓練的ViLBERT對於上述幾個下游任務都有不錯的效果。

作者對各個任務下ViLBERT達到最好效果所需的TRM和Co-TRM層數進行了實驗,實驗表明VQA、VCR需要的層數較少,而其余任務則是准確率大致上隨層數增大而增加。

作者還分析了預訓練數據集大小與模型效果的關系,分別使用了不同比例的Conceptual Captions(包含大量的圖片及對應的標題)數據。結果表明預訓練數據集越大模型效果越好,證明預訓練中沒有發生過擬合。

 
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM