首个融合场景图知识的多模态预训练模型 ERNIE-ViL

本文转载自查看原文 2020-07-06 14:03 587 NLP

近日，百度在该领域取得突破，提出业界首个融合场景图知识的多模态预训练模型 ERNIE-ViL。百度研究者将场景图知识融入到视觉-语言模型的预训练过程，学习场景语义的联合表示，显著增强了跨模态的语义理解能力。ERNIE-ViL 还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等 5 项典型多模态任务中刷新了世界最好效果。并在多模态领域权威榜单视觉常识推理任务（VCR）上登顶榜首。

论文链接：https://arxiv.org/abs/2006.16934

ERNIE 开源地址：https://github.com/PaddlePaddle/ERNIE

好东西留着进一步研读

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 中文预训练模型ERNIE2.0模型下载及安装 NLP中的预训练语言模型（一）—— ERNIE们和BERT-wwm 知识增强的预训练模型简介看MindSpore加持下，如何「炼出」首个千亿参数中文预训练语言模型？百度NLP预训练模型ERNIE2.0最强实操课程来袭！【附教程】【知识总结】预训练语言模型BERT的发展由来预训练模型（三）-----Bert 预训练模型之Roberta pytorch预训练模型梳理NLP预训练模型