首個融合場景圖知識的多模態預訓練模型 ERNIE-ViL

本文轉載自查看原文 2020-07-06 14:03 587 NLP

近日，百度在該領域取得突破，提出業界首個融合場景圖知識的多模態預訓練模型 ERNIE-ViL。百度研究者將場景圖知識融入到視覺-語言模型的預訓練過程，學習場景語義的聯合表示，顯著增強了跨模態的語義理解能力。ERNIE-ViL 還在包括視覺常識推理、視覺問答、引用表達式理解、跨模態圖像檢索、跨模態文本檢索等 5 項典型多模態任務中刷新了世界最好效果。並在多模態領域權威榜單視覺常識推理任務（VCR）上登頂榜首。

論文鏈接：https://arxiv.org/abs/2006.16934

ERNIE 開源地址：https://github.com/PaddlePaddle/ERNIE

好東西留着進一步研讀

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 ONNX預訓練模型加載預訓練模型遷移學習第4篇微調預訓練模型 Tensorflow加載預訓練模型和保存模型一文帶你了解知識圖譜融入預訓練模型哪家強？九大模型集中放送不同預訓練模型的總結對比 Notes | Bert系列的預訓練模型 pytorch各種預訓練模型的下載地址第7篇在不同任務上微調預訓練模型關於bert預訓練模型的輸出是什么