【论文小综】基于外部知识的VQA(视觉问答)
我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知。作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提出的问题。从15年首次被提出[1]至今,其涉及的方法从最开始的联合编码,到双线性融合,注意力机制 ...
我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知。作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提出的问题。从15年首次被提出[1]至今,其涉及的方法从最开始的联合编码,到双线性融合,注意力机制 ...