原文:文献阅读_image capition_2020ECCV_Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Oscar: Object Semantics Aligned Pre training for Vision Language Tasks 边看边写的。写晕乎了。。 摘要: 当前视觉语言任务常用 大规模预训练模型 多模态表示 这里指image text pair 。他们结合的比较暴力 图文简单拼接 self attention机制 ,我们的核心idea就是引入了目标识别生成的tag 作为锚点降低 ...

2021-08-17 11:00 0 275 推荐指数:

查看详情

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM