論文解讀丨無參數的注意力模塊SimAm


摘要:本文提出了一個概念簡單但對卷積神經網絡非常有效的注意力模塊。

本文分享自華為雲社區《論文解讀系列三十:無參數的注意力模塊SimAm論文解讀》,作者:谷雨潤一麥。

摘要

本文提出了一個概念簡單但對卷積神經網絡非常有效的注意力模塊。相比於現有的通道注意力和空間注意力機制,本文直接在網絡層中推理出三維的注意力權重而且不增加任何參數量。確切地來說,本文基於著名的神經科學理論提出了通過優化能量函數來查找每個神經元的重要性。本文通過求解能量函數解析解的方式,進一步將代碼實現控制在十行以內。SimAm模的另一個優勢是大多數操作都是基於定義的能量函數的解決方案,因此不需要花太多的精力做結構調整。在各個視覺任務上的定量實驗都表明本文提出的模塊在改善卷積網絡的表征能力上具有靈活性和有效性。

動機

現有的注意力基礎模塊存在兩個問題。一個是他們只能在通道或者空間維度中的一個維度對特征進行精煉,但在空間和通道同時變化的空間缺乏靈活性。第二是他們的結構往往需要基於一系列的復雜操作,例如池化。文本基於完善的神經科學理論提出的模塊很好的解決了上述兩個問題。具體來說,為了讓網絡學習到更具區分性的神經元,本文提出直接從當前的神經元推理出三維的權重,然后反過來去優化這些神經元。為了有效的推理出三維的權重,本文基於神經科學的知識定義了一個能量函數,然后獲得了該函數的解析解。

方法

在神經科學中,信息豐富的神經元通常表現出與周圍神經元不同的放電模式。而且,激活神經元通常會抑制周圍神經元,即空域抑制。換句話說,展現出空域抑制效應的神經元在視覺處理任務中應該被賦予更高的重要性。最簡單的尋找重要神經元的方法就是度量神經元之間的線性可分性。基於這些神經科學的發現,本文針對每個神經元定義了如下的能量函數:

其中,$\hat t=w_t t+b_t, \hat x_i=w_t x_i + b_t$是$t$和$x_i$的線性變換,$t$和$x_i$是輸入特征$\textbf{X}\in \mathbb{R}^{C\times H\times W}$的單通道中的目標神經元和其他神經元。$i$是在空間維度上的索引,$M=H\times M$是一個通道上的神經元的數量。$w_t$和$b_t$是線性變換的權重和偏置。式(1)中的所有值都是標量。當$\hat t=y_t$並且對其他說有神經元都有$\hat x_i =y_o$時,式(1)得到最小值,其中$y_t$和$y_o$是兩個不同的值。最小化公式(1)等價於找到同一通道內目標神經元$t$​和其他神經元的線性可分性。為簡單起見,本文采用二值標簽並添加正則項。最終的能量函數如下式:

理論上,每個通道都會有$M$個這樣能量函數,如果用像SGD這樣的梯度下降算法去求解這些等式的話,計算開銷將會非常大。幸運地是,等式(2)中$w_t$和$b_t$都可以快速求得解析解,如下式所示:

其中$u_t=\frac{1}{M-1}\sum{i=1}^{M-1}x_i$和$\sigma_t^2=\frac{1}{M-1}\sum{i}^{M-1}(s_i-\mu_t)^2$​是對應通道中出去神經元$t$​​​后所有神經元的均值和方差。從公式(3)和公式(4)可以看出解析解都是在單通道上得到的,因此可以合理的推測同一個通道的其他神經元也滿足相同的分布。基於這個假設,就可以在所有神經元上計算均值和方差,在同一通道上的所有神經元都可以復用這個均值和方差。因此可以大大減少每個位置重復計算$\mu$和$\sigma$​的開銷,最終每個位置的最小能量可以通過下式得到:

其中$\mu=\frac{1}{M}\sum{i=1}^{M}x_i$和$\hat\sigma^2=\frac{1}{M}\sum{i=1}^{M}(x_i-\hat\mu)^2$。等式(5)說明,能量$e_t^$越低,神經元$t$和周圍神經元的區別越大,在視覺處理中也越重要。因此,本文通過$1/e_t^$​​​來表示每個神經元的重要性。根據Hillard等人<sup>1</sup>的研究,哺乳動物大腦中的注意力調節通常表現為對神經元反應的增益效應。因此本文直接用了縮放而不是相加的操作來做特征提煉,整個模塊的提煉過程如下:

其中$\Epsilon$是$e_t^*$在所有通道和空間維度的匯總,$sigmoid$​是用來約束過大的值,它不會影響每個神經元的相對大小,因為它是一個單調函數。

​ 實際上除了計算每個通道的均值和方差外,其他所有的操作都是元素級別點對點的操作 。因此利用Pytorch可以幾行代碼實現公式(6)的功能,如圖一所示。

圖一 SimAM的pytorch風格實現

實驗

CIFAR 分類實驗

​ 在CIFAR 10類數據和100類數據上分別做了實驗,並和其他四中注意力機制進行了對比,本文提出的模塊在不增加任何參數的情況下在多個模型上都表現出了優越性,實驗結果如圖二所示。

圖二 五種不同的注意力模塊在不同模型上CIFAR圖像分類任務上的top-1准確率

[1]: Hillyard, S. A., Vogel, E. K., and Luck, S. J. Sensory Gain Control (Amplification) as a Mechanism of Selective Attention: Electrophysiological and Neuroimaging evidence. Philosophical Transactions of the Royal Society of London. Series B: Biological Sciences, 353(1373): 1257–1270, 1998.

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM