原文鏈接:https://arxiv.org/pdf/1904.08920
Task
VQA (visual question answering) 是視覺推理的一個方向,給定圖片和與圖片相關的問題,期望得 到問題的答案。現有模型在VQA數據集上效果較好,但在VQA的一個子任務上表現不佳。這個子任務是 與提取圖片中文本有關的VQA,答案通常與圖片中的文本相關(對識別文本進行篩選,或者基於識別文本生成回答)。
Dataset
為了解決這個任務,研究者基於Open Images提出了TextVQA數據集,對前者中的圖片提出了各種需要識別文本才能解決的問題以及相應的答案。

圖中為TextVQA數據集中的部分數據示例。研究者將現有的VQA模型在該數據集上運行,正確率僅有14%左右,可見該任務仍有很大的研究價值。

上圖為數據集中對於問題長度、答案長度、文本數目、常見問題、常見回答等的統計圖。
問題的答案可能直接來自文本提取結果,也可能需要模型自己生成,后者需要給定一個答案空間,對應VQA領域普遍的方法,但對於答案空間中未出現的、圖片中出現的文本,現有VQA模型表現不佳。
圖片中的文本提取對應OCR(optical character recognition),是一項研究歷史比較久的領域,並已經有了很多成熟方法。因此TextVQA的主要難點在於根據問題選擇答案應該來自OCR結果還是答案空間,並在OCR結果或答案空間中選擇答案。
基於此,作者提出了LoRRA(look, read, reason and answer)模型。
Model

如圖,模型分為VQA部分、讀取部分和回答部分。VQA部分根據問題對圖片提取的特征進行注意力加權,對應傳統VQA;讀取部分根據問題對OCR結果進行注意力加權;回答部分根據前兩部分的結果輸出答案。
VQA部分
本部分基於VQA競賽的冠軍模型Pythia。首先通過GloVe對問題q進行解析,得到詞嵌入(embedding),然后經過LSTM得到問題的嵌入fQ(q),用於后續對圖片特征以及OCR樣本進行注意力加權平均。
圖片的空間特征分別經過了grid-based和region-based兩種方式提取,前者使用了ResNet152,后者使用了Faster R-CNN。提取的特征fI(v)與fQ(q)一起經過注意力機制得到加權的空間注意力,得到的結果與fQ(q)進行組合。整體計算過程可以寫為:

fVQA(v,q)隨后經過全連接層MLP生成答案空間上a1~aN的概率分布p1~pN。
讀取部分
讀取部分中OCR基於Rosetta OCR模型(核心為Faster R-CNN和全卷積模型CTC)。
后續部分與VQA部分類似,區別在於將fI(v)更換為OCR結果fO(s)。雖然fA和fcomb與VQA部分結構一致,但參數是獨立訓練的。


此外,上述過程中忽略了OCR結果的順序信息,因此將OCR的注意力權重與上述結果拼接在一起,以向模型提供原始OCR結果的順序信息。
回答部分
回答部分決定答案來源,包括答案空間a1~aN以及OCR結果s1~sM,如果來自OCR結果則使用復制模塊輸出答案。計算過程寫為


其中";"代表拼接。經過MLP后對於答案空間a1~aN以及OCR結果s1~sM分別進行log運算(而非softmax),以應對答案同時在答案空間以及OCR結果中的可能。
注意對於部分問題,答案需要組合多個OCR結果,這方面本篇論文沒有解決,留作未來工作。
Experiment
作者衡量了啟發性基准(左圖)以及訓練模型(右圖)的准確率。
左圖從上到下依次為人類表現、只從OCR預測的上限(預測一定正確)、只從LA(大詞匯表)預測的上限、LA+OCR預測的上限、從最常見的100個答案中隨機采樣、從最常見的100個答案中按頻率采樣、始終預測最常見答案(即"yes")、從相應圖的OCR結果中隨機采樣、從相應圖的OCR結果中選擇頻率最高的結果。LA+OCR UB的准確率代表TextVQA的研究仍然有很大的進步空間。
右圖為Ablation,從上到下分別為只有fQ(q)、只有fI(v)、Pythia(VQA部分)、Pythia+OCR、Pythia+OCR+復制模塊、Pythia+LoRRA、Pythia+LoRRA+SA(小詞匯表)、BAN、BAN+LoRRA,可見LoRRA取得了最佳性能,達到了27%左右的正確率。
實驗的具體細節如學習率大小、迭代次數等參見原文。

研究者還發現LoRRA模型能夠提升Pythia在原有的VQA數據集上的准確率,可見TextVQA的任務有助於提升VQA模型對於圖像的理解。

研究者最后給出了LoRRA模型在TextVQA數據集上的部分預測結果以及答案來源,綠色為正確,藍色為部分正確,紅色為錯誤。