标签【vqa】 - 码上欢乐

【论文小综】基于外部知识的VQA（视觉问答）

我们生活在一个多模态的世界中。视觉的捕捉与理解，知识的学习与感知，语言的交流与表达，诸多方面的信息促进着我们对于世界的认知。作为多模态领域的一个典型场景，VQA旨在结合视觉的信息来回答所提出的问题。从15年首次被提出[1]至今，其涉及的方法从最开始的联合编码，到双线性融合，注意力机制 ...

相关标签