前言:
最近幾年,注意力機制用來提升模型性能有比較好的表現,大家都用得很舒服。本文將介紹一種新提出的坐標注意力機制,這種機制解決了SE,CBAM上存在的一些問題,產生了更好的效果,而使用與SE,CBAM同樣簡單。
論文地址:
https://arxiv.org/pdf/2103.02907.pdf
代碼地址:
https://github.com/AndrewQibin/CoordAttention
Introduction
大部分注意力機制用於深度神經網絡可以帶來很好的性能提升,但這些注意力機制用於移動網絡(模型比較小)會明顯落后於大網絡,這主要是因為大多數注意力機制帶來的計算開銷對於移動網絡而言是無法承受的,例如self-attention。
因此,在移動網絡上主要使用Squeeze-and-Excitation (SE),BAM和CBAM。但SE只考慮內部通道信息而忽略了位置信息的重要性,而視覺中目標的空間結構是很重要的。BAM和CBAM嘗試去通過在通道上進行全局池化來引入位置信息,但這種方式只能捕獲局部的信息,而無法獲取長范圍依賴的信息。
這里稍微解釋一下,經過幾層的卷積后feature maps的每個位置都包含了原圖像一個局部區域的信息,CBAM是通過對每個位置的多個通道取最大值和平均值來作為加權系數,因此這種加權只考慮了局部范圍的信息。
在本文中提出了一種新穎且高效的注意力機制,通過嵌入位置信息到通道注意力,從而使移動網絡獲取更大區域的信息而避免引入大的開銷。為了避免2D全局池化引入位置信息損失,本文提出分解通道注意為兩個並行的1D特征編碼來高效地整合空間坐標信息到生成的attention maps中。
具體而言,利用兩個1D全局池化操作將沿垂直和水平方向的input features分別聚合為兩個單獨的direction-aware feature maps。 然后將具有嵌入的特定方向信息的這兩個特征圖分別編碼為兩個attention map,每個attention map都沿一個空間方向捕獲輸入特征圖的遠距離依存關系。 位置信息因此可以被保存在所生成的attention map中。 然后通過乘法將兩個attention map都應用於input feature maps,以強調注意區域的表示。
考慮到其操作可以區分空間方向(即坐標)並生成coordinate-aware attention maps,因此論文將提出的注意力方法稱為“coordinate attention”。
這種coordinate attention有三個優點:
1) 它捕獲了不僅跨通道的信息,還包含了direction-aware和position-sensitive的信息,這使得模型更准確地定位到並識別目標區域。
2) 這種方法靈活且輕量,很容易插入到現有的經典移動網絡中,例如MobileNet_v2中的倒殘差塊和MobileNeXt中的沙漏塊中去提升特征表示性能。
3) 對一個預訓練的模型來說,這種coordinate attention可以給使用移動網絡處理的down-stream任務帶來明顯性能提升,尤其是那些密集預測的任務,例如語義分割。
Coordinate Attention
在介紹coordinate attention前先回顧一下SE和CBAM。
SE比較簡單,如圖a所示,看一下這個結構圖就懂了。
稍微介紹一下CBAM,如圖b所示,CBAM包含空間注意力和通道注意力兩部分。
通道注意力:對input feature maps每個feature map做全局平均池化和全局最大池化,得到兩個1d向量,再經過conv,ReLU,1x1conv,sigmoid進行歸一化后對input feature maps加權。
空間注意力:對feature map的每個位置的所有通道上做最大池化和平均池化,得到兩個feature map,再對這兩個feature map進行7x7 Conv,再使BN和sigmoid歸一化。
具體如下圖所示:
回到Coordinate Attention上,如下圖所示,分別對水平方向和垂直方向進行平均池化得到兩個1D向量,在空間維度上Concat和1x1Conv來壓縮通道,再是通過BN和Non-linear來編碼垂直方向和水平方向的空間信息,接下來split,再各自通過1x1得到input feature maps一樣的通道數,再歸一化加權。
簡單說來,Coordinate Attention是通過在水平方向和垂直方向上進行最大池化,再進行transform對空間信息編碼,最后把空間信息通過在通道上加權的方式融合。
Conclusion
這種方式與SE,CBAM有明顯提升。
下一篇將對注意力機制進行做一個總結。
最近把公眾號所有的技術總結打包成了一個pdf,在公眾號《CV技術指南》中回復關鍵字 “技術總結” 可獲取。
本文來源於公眾號CV技術指南的論文分享系列,更多內容請掃描文末二維碼關注公眾號。