【文章推荐】Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

原文：Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

Pixel BERT:Aligning ImagePixels with Text by Deep Multi Modal Transformers : : Paper:https: arxiv.org pdf . 预训练模型如火如荼，多模态预训练也没有掉队。其中，image language 领域，如何将这两者联合学习是一个较为火热的方向。本文提出一种基于跨模态 transformer 的模型， ...

2020-12-23 11:55 0 591 推荐指数：

查看详情

Paper Read: Robust Deep Multi-modal Learning Based on Gated Information Fusion Network

Robust Deep Multi-modal Learning Based on Gated Information Fusion Network 2018-07-27 14:25:26 Paper：https://arxiv.org/pdf/1807.06233.pdf ...

Multi-modal Knowledge Graphs for Recommender Systems - 1 - 论文学习

Multi-modal Knowledge Graphs for Recommender Systems ABSTRACT 在各种在线应用中，推荐系统在解决信息爆炸问题和增强用户体验方面显示出了巨大的潜力 ...

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

摘要：提出了一个新的语言表示模型(language representation), BERT: Bidirectional Encoder Representations from Transformers。不同于以往提出的语言表示模型，它在每一层的每个位置都能利用其左右两侧的信息用于学习 ...

文献阅读报告 - Social Ways: Learning Multi-Modal Distributions of Pedestrian Trajectories with GANs

文献引用 Amirian J, Hayet J B, Pettre J. Social Ways: Learning Multi-Modal Distributions of Pedestrian Trajectories with GANs[J]. 2019. 文章是继 ...

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 摘要我们引入了一个新的叫做bert的语言表示模型，它用transformer的双向编码器表示。与最近的语言表示模型不同，BERT ...

MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video - 1 - 论文学习

MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video ABSTRACT ...

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition--论文

文章题目：多模态域自适应的细粒度动作识别 1、引言　　首先明确几个名词含义。　　Multi-Modal（多模态）：每种信息来源可以称作一个模态，多模态就是同时处理两种或两种以上的信息来源。例如一个视频有视觉、听觉、字幕等，同时考虑视觉，听觉就是多模态方法。　　Domain ...

Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data

目录 Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data 一. 论文简介二. 模块详解 2.1 DetNet 2.2 ...

原文：Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

相关推荐

相关标签