CPT: COLORFUL PROMPT TUNING FOR PRE-TRAINED VISION-LANGUAGE MODELS


CPT: COLORFUL PROMPT TUNING FOR PRE-TRAINED VISION-LANGUAGE MODELS

2021-09-28 11:41:22

 

Paperhttps://arxiv.org/pdf/2109.11797.pdf 

Other blog: https://zhuanlan.zhihu.com/p/414800147

Code: not available yet 

 

1. Background and Motivation

  目前主流的 vision-language 任務,基本上服從 pre-train 和 fine-tuning 的框架。先在大型 vision-language 數據對上進行預訓練學習,然后在下游任務上進行特征的微調,以取得更好的下游任務結果。這種范式極大地推動了 vision-language 領域的發展,很多模型都取得了更好的精度。但是這種范式的主要問題是,pre-train 和 下游任務的學習 顯得有點分離了。為了將這兩個階段更加緊密的結合在一起,最近 prompt 技術開始引起大家的關注。如何將下游任務更加直接的結合到 pre-train 中,以得到更好的結果,是當前研究的重點。

  本文也在嘗試解決這個問題,並在 image grounding 這個任務上進行了驗證,提出利用 color 來作為中間橋梁,完成 colorful prompt tuning。如下圖所示:

    

 

  作者認為在預訓練階段,大部分預訓練模型均基於 masked language modelling objective, 嘗試從跨模態內容上恢復出 masked tokens。然而,在微調階段,下游任務通常識別未掩膜符號表達為語義標簽。這通常會引入特定任務的參數。並進一步的阻礙了大模型到下游任務的遷移。從而在下游任務,需要大規模有標簽數據的來仿真 visual grounding 的能力。在本文中,受到最近 pre-trained model 的啟發,作者設計了一種 Cross-modal Prompt Tuning,CPT,也稱為 Colorful Prompt Tuning,一種新的范式進行 vision-language 預訓練模型的微調。關鍵點就在於:添加 color-based co-referential markers in both image and text,visual grounding 可以重新定義為“完形填空”問題,最大程度上縮小 pre-training 和 fine-tuning 之間的差異。如圖1 所示,為了從 image data 中得到 natural language expressions,CPT 包含兩種成分:

  1. a visual sub-prompt: uniquely marks image regions with color blocks;

  2. a textual sub-prompt: puts the query text into a color-based query template;

  目標圖像區域的直接 grounding 可以通過從 the masked token in the query template 中恢復對應的 color text 來實現。

 

  通過彌補該鴻溝,本文所提出的 prompt tuning 方法可以確保較強的 few-shot 甚至 zero-shot visual grounding 能力。實驗結果表明,該方法可以超過 fine-tuning 技術,並帶來 17.3% 的精度提升。CPT 的主要創新在於:首次提出一種新的跨膜他 prompt tuning 技術,並在 zero- 和 few-shot visual grounding 上均獲得了巨大的提升。

 

2. Approach

  作者提到 visual grounding 的關鍵問題是建立細粒度的 image regions 和 textual expressions 的聯系。所以,一個好的跨模態 prompt tuning framework 應該充分考慮到 co-referential signal,並且盡可能的減小 pre-training 和 tuning 之間的差異。為了達到該目的,作者設計了兩個模塊,可以直接通過填充掩膜符號來實現 query text 的定位。優勢是,利用目標圖像區域的顏色文本進行填充,其優化目標和 pre-training 是相同的。這樣就實現了 pre-training 和 tuning 的一致。

 

2.1. Visual Sub-Prompt

  給定圖像 I 及其區域候選 R ={v1, v2, ..., vn},visual sub-prompt 目的是利用自然視覺標記符進行獨特的標記。有意思的是,將矩形框進行加顏色,一般僅用於可視化。受到該操作的啟發,作者通過一組顏色集合 C,將圖像區域和文本表示進行連接,每一種顏色 ci 定義為其視覺外觀。然后,作者將每一個 region proposal vi 標記為一個獨特的顏色進行 grounding,得到一組有顏色的 image proposals。作者通過實驗發現,通過將物體進行塗顏色處理得到的區域,比用矩形框可以得到更好的結果,因為,有顏色的物體在現實世界中,更加普遍,例如:red shirt 以及 blue car。由於 visual sub-prompt 是添加到 raw image 中的,其並不會改變模型的參數或者結構。

 

2.2. Textual Sub-Prompt:

  Textual Sub-prompt 目的引導模型建立 query text 和 已被標記顏色的 image regions 之間的聯系。具體來說, the query text q 被模板 T(*) 轉換為 完形填空問題:

  T(q) = [CLS] q is in [MASK] color [SEP]

  通過這種方式,大模型可以被引導用於決策那些區域更加適合填充掩膜的顏色:

  

 

  其中,v* 是 target region。

  在設計該 color-based prompt 來連接 image 和 text 有如下兩個挑戰:

  1). 如何決定 color set C 的配置;

  2). 如何處理利用有限的 pre-trained colors 來處理眾多 image regions;

 

  Cross-Modal Prompt Search

  前人關於 textual prompt tuning 的工作表明:prompt configurations 對最終的結果有明顯的影響。在本文中,作者嘗試搜索 cross-modal prompt configurations,即 顏色集合 C。直觀上來說,C 應該包含模型最敏感的顏色。為了得到一種顏色 ci,一種簡單的方法是采用預訓練文本中最常見的 color text,以及標准的 RGB顏色。然而,這種方法是次優的,因為,在決定 color text 的時候並沒有考慮到 visual appearance,而實際圖像中的視覺外觀顏色通常不是標准的 RGB 顏色。

  在本文中,作者首先識別所有 color text 的一個候選集合。對於 RGB 空間中的每一種顏色,作者將 pure color block 與一個 textual sub-prompt 進行組合,輸入到模型中

  “ [CLS] a photo in [MASK] color. [SEP] ”.

  然后,作者得到一個 decoding score,更大的 decoding score 表示 cv 和 cw 之間有更深的關系。作者將排行靠后的一些顏色移除了。最終,對於剩下的 color text,其視覺外觀通過 arg max s(cv, cw) 來決定。作者的實驗表明,通過這種方式得到的 color configurations 可以比 naive 方法得到明顯優秀的結果。

 

  Image Region Batching:在視覺定位中,region proposal 的個數通常超過 C (~10)。此外,作者觀察到嚴重重疊的 color blocks 可能會嚴重的妨礙 visual grounding。所以,作者將圖像划分為 batches,每一個 batch 包含一組適度重合的圖像區域。用 visual sub-prompt 的方式對每一個 batch 進行標記。為了處理無 target region 的情況,作者引入了一組新的候選 text none 在 decoding 詞典中,表示該 batch 中無 target region。 

 

3. Experiments:

 

 

 

 

 

===


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM