原文:Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

Pixel BERT:Aligning ImagePixels with Text by Deep Multi Modal Transformers : : Paper:https: arxiv.org pdf . 预训练模型如火如荼,多模态预训练也没有掉队。其中,image language 领域,如何将这两者联合学习是一个较为火热的方向。本文提出一种基于跨模态 transformer 的模型, ...

2020-12-23 11:55 0 591 推荐指数:

查看详情

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition--论文

文章题目:多模态域自适应的细粒度动作识别 1、引言   首先明确几个名词含义。   Multi-Modal(多模态):每种信息来源可以称作一个模态,多模态就是同时处理两种或两种以上的信息来源。例如一个视频有视觉、听觉、字幕等,同时考虑视觉,听觉就是多模态方法。   Domain ...

Thu Oct 01 22:51:00 CST 2020 0 668
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM