原文:文獻閱讀_image capition_2020ECCV_Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

Oscar: Object Semantics Aligned Pre training for Vision Language Tasks 邊看邊寫的。寫暈乎了。。 摘要: 當前視覺語言任務常用 大規模預訓練模型 多模態表示 這里指image text pair 。他們結合的比較暴力 圖文簡單拼接 self attention機制 ,我們的核心idea就是引入了目標識別生成的tag 作為錨點降低 ...

2021-08-17 11:00 0 275 推薦指數:

查看詳情

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM