注意力機制CV領域是從NLP領域借鑒過來的,比如:一段話中提取關鍵的、具備代表性的詞語。這個其實在以前聚類算法中學習過,例如:利用bag of word技術,提取一篇論文的關鍵詞,實現論文查重功能。
一、CBAM
如下圖的Channel Attention Module,將一個32×32×256維度的特征圖,在channel維度上,給出256個權重,所謂注意力就是重點考慮權重大特征圖。類似於softmax,這里輸出一個維度為256權重向量。然后將權重向量各自與Input Feature每張圖相乘,得到新的特征圖。 在后續Spatial Attention Module中,在32×32這兩個維度,計算類似於上述的權重矩陣(32×32),同理,將256個權重矩陣依次與新的特征圖相乘,得到最終新的特征圖,即:優化后的特征圖。
二、SAM
YOLOV4中並沒有使用CBAM,而是SAM,SAM僅僅考慮在空間(Spatial)維度上進行特征圖優化。 如下圖(a)原始SAM,先是最大池化、平均池化,后續接着卷積,YOLOV4直接將這兩步驟合並,可以降低計算量,如圖(b)。