Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers
2020-12-23 11:54:13
Paper: https://arxiv.org/pdf/2004.00849
預訓練模型如火如荼,多模態預訓練也沒有掉隊。其中,image-language 領域,如何將這兩者聯合學習是一個較為火熱的方向。本文提出一種基於跨模態 transformer 的模型,來進行聯合特征的學習。整體方法示意圖如下:
從上圖可以看出,作者用 transformer 模型對 language 進行編碼。同時,用 CNN 抽取 圖像的特征,然后輸入到一個特征映射模塊中。該模塊的特色是,隨機的從中扣取 local feature patch,以防止過擬合。然后 language 和 vision feature 組合在一起,放到 transformer 模型中。本文采用兩種訓練損失,即:圖像文本匹配的訓練方法 和 掩模預測的訓練方法。
從計算資源來看,本文在 64 張 V100 上進行了訓練。一般人,玩不起。。。
訓練方法上來說,對 CNN 用 SGD, 對 Transformer 部分用 AdamW 分別進行優化。