紋理 Transformer 模型包括:
1)可學習的紋理提取器模塊(Learnable Texture Extractor)、
2)相關性嵌入模塊(Relevance Embedding)、
3)硬注意力模塊(Hard Attention)、
4)軟注意力模塊(Soft Attention)。
后面兩個是本次的重點
1)可學習的紋理提取器模塊(Learnable Texture Extractor)
用預訓練好的vgg 提取中間的淺層特征,
存在缺陷: 1. vgg做的是以 語義 為導向的 圖像類別標簽,以此為訓練目標,,所以會跟紋理信息有差異。另,我們要的是 低層級的紋理信息。
- vgg對應的是 固定權重的 預訓練好的,,缺乏靈活性。。對於不同的任務,需要提取的紋理信息是不同的。
在紋理 Transformer 中提出了一種可學習的紋理提取器。
我們做的就是 可學習的紋理提取器,,好像很有道理的亞子
2)相關性嵌入模塊(Relevance Embedding)
transformer 同樣有 QKV三要素,
1,Q “query”,從 LR 提取出紋理特征信息,用來進行紋理搜索 ???對應上采樣???
2,K “key” ,HR ref 先下采樣 再 上采樣 得到跟 LR 一致的圖像的紋理特征信息,
3,V “value”,HR ref 圖像
!!!Q 和 K,上接 一個相關性嵌入模塊來 建立 LR 輸入圖像和 Ref 之間的關系。
以內積的方式計算 Q 和 K 中的特征塊兩兩之間的相關性。
內積越大的地方代表兩個特征塊之間的相關性越強,可遷移的高頻紋理信息越多。
相關性嵌入模塊會輸出一個硬注意力圖和一個軟注意力圖。
硬注意力圖 記錄了 對 Q 中的每一個特征塊,K 中對應的 最相關的特征塊的 位置;
軟注意力圖 記錄了 這個最相關的特征塊的具體相關性,即內積大小。
3)硬注意力模塊(Hard Attention)
利用硬注意力圖中所記錄的位置,,從 V 中遷移對應位置的特征塊,進而組合成一個遷移紋理特征圖 T。
T 的每個位置包含了參考圖像中最相似的位置的高頻紋理特征。
T 隨后會與骨干網絡中的特征進行通道級聯,並通過一個卷積層得到融合的特征
4)軟注意力模塊(Soft Attention)
硬注意力模塊 融合的特征會與軟注意力圖進行對應位置的點乘。
基於這樣的設計,相關性強的紋理信息能夠賦予相對更大的權重;相關性弱的紋理信息,能夠因小權重得到抑制。
因此,軟注意力模塊能夠使得遷移過來的高頻紋理特征得到更准確的利用。
跨層級特征融合
傳統 Transformer 通過堆疊使得模型具有更強的表達能力
但是對於圖像,直接堆疊 效果不會太好。
!!!提出了跨層級的特征融合機制。
將所提出的紋理Transformer 應用於 x1、x2、x4 三個不同的層級,並將不同層級間的特征通過上采樣或帶步長的卷積進行交叉融合。
通過上述方式,不同粒度的參考圖像信息會滲透到不同的層級,從而使得網絡的特征表達能力增強,提高生成圖像的質量。