Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers


Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

 2020-12-23 11:54:13

Paperhttps://arxiv.org/pdf/2004.00849  

 

  預訓練模型如火如荼,多模態預訓練也沒有掉隊。其中,image-language 領域,如何將這兩者聯合學習是一個較為火熱的方向。本文提出一種基於跨模態 transformer 的模型,來進行聯合特征的學習。整體方法示意圖如下:

 

 

 

  從上圖可以看出,作者用 transformer 模型對 language 進行編碼。同時,用 CNN 抽取 圖像的特征,然后輸入到一個特征映射模塊中。該模塊的特色是,隨機的從中扣取 local feature patch,以防止過擬合。然后 language 和 vision feature 組合在一起,放到 transformer 模型中。本文采用兩種訓練損失,即:圖像文本匹配的訓練方法 和 掩模預測的訓練方法。

 

  從計算資源來看,本文在  64 張 V100 上進行了訓練。一般人,玩不起。。。

 

  訓練方法上來說,對 CNN 用 SGD, 對 Transformer 部分用 AdamW 分別進行優化。

 

 

 

 

 

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM