原文:TextVQA and LoRRA

原文链接:https: arxiv.org pdf . Task VQA visual question answering 是视觉推理的一个方向,给定图片和与图片相关的问题,期望得 到问题的答案。现有模型在VQA数据集上效果较好,但在VQA的一个子任务上表现不佳。这个子任务是 与提取图片中文本有关的VQA,答案通常与图片中的文本相关 对识别文本进行筛选,或者基于识别文本生成回答 。 Datas ...

2020-04-17 02:02 0 850 推荐指数:

查看详情

M4C:TextVQA的分布预测多模态Transformers

原文链接:https://arxiv.org/pdf/1911.06258 Motivation 任务为TextVQA(详情见上一篇推送)。现有模型大多是基于两个模态的结合机制(如问题与图片特征 ...

Fri Apr 17 10:06:00 CST 2020 0 1143
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM