近日,百度在該領域取得突破,提出業界首個融合場景圖知識的多模態預訓練模型 ERNIE-ViL。百度研究者將場景圖知識融入到視覺-語言模型的預訓練過程,學習場景語義的聯合表示,顯著增強了跨模態的語義理解能力。ERNIE-ViL 還在包括視覺常識推理、視覺問答、引用表達式理解、跨模態圖像檢索、跨模態文本檢索等 5 項典型多模態任務中刷新了世界最好效果。並在多模態領域權威榜單視覺常識推理任務(VCR)上登頂榜首。
論文鏈接:https://arxiv.org/abs/2006.16934
ERNIE 開源地址:https://github.com/PaddlePaddle/ERNIE
好東西留着進一步研讀