ICCV2021 | PnP-DETR：用Transformer進行高效的視覺分析

本文轉載自查看原文 2021-11-23 15:12 156 CV技術指南

前言

DETR首創了使用transformer解決視覺任務的方法，它直接將圖像特征圖轉化為目標檢測結果。盡管很有效，但由於在某些區域(如背景)上進行冗余計算，輸入完整的feature maps的成本會很高。

在這項工作中，論文將減少空間冗余的思想封裝到一個新的輪詢和池(Poll and Pool, PnP)采樣模塊中，該模塊具有通用和即插即用的特點，利用該模塊構建了一個端到端的PnP-DETR體系結構，該體系結構可以自適應地在空間上分配計算，以提高計算效率。

本文來自公眾號CV技術指南的論文分享系列

關注公眾號CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

代碼：https://github.com/twangnh/pnp-detr

Background

目標檢測是一項基本的計算機視覺任務，其目的是識別圖像中的目標實例，並使用精確的邊界框對其進行定位。現代檢測器主要利用代理學習目標(proxy learning objectives)來處理該集合預測任務，即，回歸距預定義錨框的偏移量或距網格位置的邊界。這些啟發式設計不僅使模型設計復雜化，而且還需要手工制作的后處理來消除重復。

最近的一種方法DETR消除了這些手工設計，實現了端到端的目標檢測。它在卷積特征圖上建立了一個有效的集合預測框架，並顯示出與faster R-CNN檢測器相當的性能。特征圖在空間維度上被展平為一維特征向量。然后，transformer利用其強大的注意機制對它們進行處理，以生成最終的檢測列表。

盡管簡單而有效，但將transformer網絡應用於圖像特征映射可能在計算上代價高昂，這主要是由於對長展平的特征向量的注意操作。這些特征可能是冗余的：除了感興趣的對象之外，自然圖像通常包含巨大的背景區域，這些背景區域可能在相應的特征表示中占據很大一部分；而且，一些區分特征向量可能已經足以檢測對象。現有的提高transformer效率的工作主要集中在加速注意操作上，很少考慮上面討論的空間冗余。

創新思路

為了解決上述局限性，論文開發了一個可學習的輪詢和池化(Poll and Pool, PnP)采樣模塊。它的目的是將圖像特征圖壓縮成由精細特征向量和少量粗略特征向量組成的抽象特征集。

從輸入特征圖中確定性地采樣精細特征向量，以捕捉精細前景信息，這對於檢測目標是至關重要的。粗略特征向量聚合來自背景位置的信息，所產生的上下文信息有助於更好地識別和定位對象。然后，transformer對細粗特征空間內的信息交互進行建模，並獲得最終結果。

由於抽象集比直接扁平化的圖像特征圖短得多，因此transformer的計算量大大減少，並且主要分布在前景位置。這種方法與提高transformer效率的方法是正交的，可以進一步與它們結合得到更有效的模型。

Contributions

總結起來，本文的主要貢獻在於：

1. 識別了DETR模型中圖像特征圖的空間冗余問題，該問題導致transformer網絡計算量過大。因此，提出對特征映射進行抽象，以顯著降低模型運算量。

2. 為了實現特征提取，設計了一種新穎的兩步輪詢池采樣模塊。該算法首先利用poll采樣器提取前景精細特征向量，然后利用pool采樣器獲取上下文粗特征向量。

3. 構建了PnP-DETR，該變換在抽象的細粗特征空間上進行操作，並自適應地將計算分布在空間域。通過改變精細特征集的長度，PnP-DETR算法效率更高，在單一模型下實現了即時計算和性能折衷。

4. PnP抽樣模塊是通用的，是端到端學習的，沒有像地區提案網絡那樣的明確監督。論文進一步在全景分割和最近的ViT模型上對其進行了驗證，並顯示出一致的效率增益。這種方法為未來研究使用transformer的視覺任務的有效解決方案提供了有用的見解。

Methods

PnP-DETR結構圖

feature abstration

論文提出了一種特征抽象方案來解決網格結構化表征均勻地分布在空間位置上的限制。具體來說就是把CNN輸出的feature maps用緊湊特征表示的兩組特征向量來代替作為transformer部分的輸入，細節如下圖所示。

精細特征集Ff是從feature maps離散采樣的，包含識別和檢測對象所必需的精細信息。粗略特征集Fc是通過聚集來自多個空間位置的信息並編碼背景上下文信息而獲得的。它們一起形成一個抽象集合F∗：F* = Ff U Fc。F∗對檢測圖像內的對象所需的所有高層信息進行編碼，並將其傳遞給transformer以生成目標檢測結果。

Poll and Pool (PnP) Sampling

上述抽象方案需要解決兩個挑戰：

1)精集需要確定性的二進制采樣，這是不可微的。手工設計的采樣器可以用一些中間目標來學習，例如，區域提議網絡或點提議網絡，然而，這與端到端學習不兼容，並且手工采樣規則可能不是最優的。

2)提取僅關注背景上下文信息的緊湊、粗略的特征集是困難的。論文將抽象方案分為兩個步驟，並開發了輪詢采樣器和池化采樣器來實現。采樣器是確定性的，是端到端學習的，計算量可以忽略不計。

Poll Sampler

由於顯式學習二進制采樣器是不可行的，論文提出了一個采樣排序策略。我們使用小型元評分網絡來預測每個空間特征位置(i，j)的信息性分數：

分數越大，f_ij向量的信息量越大。接下來對它們排序，得到一個分數向量Sl，向量的長度l為feature maps的HxW。取排序后的TopN , N = alpha * l。此alpha用來控制比例。

為了能夠使用反向傳播學習ScoringNet，將預測的信息量得分Sl作為對采樣的精細特征集的調制因子：

作者發現在調制前對特征向量進行歸一化可以穩定ScoringNet的學習，因此實際上先對fl做了一個LayerNorm，再與Sl相乘。

Pool Sampler

上面的輪詢采樣器提取了精細的特征集。剩余的特征向量主要對應於背景區域。為了將它們壓縮成一個總結上下文信息的小特征集，論文設計了一個池化采樣器，它對剩余的特征向量進行加權匯集，以獲得固定數量的背景上下文特征向量。這部分地受到雙線性匯集和雙重注意操作的啟發，其中生成全局描述符以捕獲特征圖的二階統計量。

公式太多，用一句話來解釋Pool采樣的主要操作：

使用一個可學習的加權向量W^a，與Poll采樣過后剩余的向量Fr進行相乘，得到一個聚合權重向量a_r，再使用Softmax對聚合向量a_r進行歸一化；
與此並列的是，使用一個可學習的加權向量W^v，與Poll采樣過后的剩余向量Fr相乘，得到一個映射后的向量F'r；
將歸一化后的a_r聚合向量和F'r相乘，即可得到Pool Sampler的輸出。

文獻[34]表明，上下文信息是識別目標的關鍵，不同尺度的金字塔特征能更好地聚合上下文信息。通過動態生成聚合權重，池化采樣器能夠自由獲取不同尺度的上下文信息。也就是說，一些特征向量可以捕獲局部上下文，而其他特征向量可以編碼全局上下文。

論文通過可視化聚集權重實證地展示了池采樣器的這種能力。與輪詢采樣器中的精細集合Ff一起，獲得所需的抽象集合F∗。請注意，PnP模塊也可以在transformer層之后應用，而不僅僅是卷積特征圖。

密集預測任務的反向投影

PnP模塊將圖像特征映射從2D坐標空間縮減到抽象空間，這不能用於密集預測任務，如圖像分割。為了解決這一局限性，論文提出將編碼器輸出的特征向量投影回2D坐標空間。

具體地說，精細特征向量散布回采樣位置；粗略特征向量首先過聚合權重擴散回通的原始2D空間：然后分散回Poll采樣器的未采樣位置。然后，將所獲得的2D特征圖用於密集預測。

Conclusion

論文在COCO基准上進行了大量的實驗，結果表明PnP-DETR有效地降低了成本，實現了動態計算和性能折中。

在沒有花里胡哨的情況下，單個PnP-DETR-DC5可獲得42.7 AP，transformer計算量減少72%，而與43.3 AP基線和競爭性43.1 AP相比，transformer計算量減少56%。進一步用全景分割和最近的vision transformer模型(ViT)驗證了效率增益。例如，PnP-ViT在精確度僅下降0.3的情況下實現了近一半的FLOP減少。