原文:Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

Pixel BERT:Aligning ImagePixels with Text by Deep Multi Modal Transformers : : Paper:https: arxiv.org pdf . 預訓練模型如火如荼,多模態預訓練也沒有掉隊。其中,image language 領域,如何將這兩者聯合學習是一個較為火熱的方向。本文提出一種基於跨模態 transformer 的模型, ...

2020-12-23 11:55 0 591 推薦指數:

查看詳情

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition--論文

文章題目:多模態域自適應的細粒度動作識別 1、引言   首先明確幾個名詞含義。   Multi-Modal(多模態):每種信息來源可以稱作一個模態,多模態就是同時處理兩種或兩種以上的信息來源。例如一個視頻有視覺、聽覺、字幕等,同時考慮視覺,聽覺就是多模態方法。   Domain ...

Thu Oct 01 22:51:00 CST 2020 0 668
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM