【论文小综】基于外部知识的VQA(视觉问答)
我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知。作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提 ...
我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知。作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提 ...
Zero shot learning 主要是zero-shot learning相关论文的阅读,主要关注于视频方面。 零样本问题现在处理视频的很少,主要是因为零样本自身就有不少的急需解决的问题: ...