Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

本文轉載自查看原文 2020-12-23 11:55 591

Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

2020-12-23 11:54:13

Paper: https://arxiv.org/pdf/2004.00849

　　預訓練模型如火如荼，多模態預訓練也沒有掉隊。其中，image-language 領域，如何將這兩者聯合學習是一個較為火熱的方向。本文提出一種基於跨模態 transformer 的模型，來進行聯合特征的學習。整體方法示意圖如下：

　　從上圖可以看出，作者用 transformer 模型對 language 進行編碼。同時，用 CNN 抽取圖像的特征，然后輸入到一個特征映射模塊中。該模塊的特色是，隨機的從中扣取 local feature patch，以防止過擬合。然后 language 和 vision feature 組合在一起，放到 transformer 模型中。本文采用兩種訓練損失，即：圖像文本匹配的訓練方法和掩模預測的訓練方法。

　　從計算資源來看，本文在 64 張 V100 上進行了訓練。一般人，玩不起。。。

　　訓練方法上來說，對 CNN 用 SGD, 對 Transformer 部分用 AdamW 分別進行優化。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network Multi-modal Knowledge Graphs for Recommender Systems - 1 - 論文學習 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 文獻閱讀報告 - Social Ways: Learning Multi-Modal Distributions of Pedestrian Trajectories with GANs BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video - 1 - 論文學習 Multi-Modal Domain Adaptation for Fine-Grained Action Recognition--論文 Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data 【論文閱讀】Multi-Modal Fusion Transformer for End-to-End Autonomous Driving 論文閱讀筆記（六十五）【ECCV2018】：Deep Cross-Modal Projection Learning for Image-Text Matching